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AVANT-PROPOS 


L'objectif de cet ouvrage est de rendre accessible au plus grand nombre une 
des méthodes les plus utilisées de la statistique : la régression. Nous souhai- 
tons aborder de manière simultanée les fondements théoriques et les questions 
inévitables que l’on se pose lorsque l’on modélise des phénomènes réels. En 
effet, comme pour toute méthode statistique, il est nécessaire de comprendre 
précisément la méthode et de savoir la mettre en œuvre. Si ces deux objectifs 
sont atteints, il sera alors aisé de transposer ces acquis à d’autres méthodes, 
moyennant un investissement modéré, tant théorique que pratique. Les grandes 
étapes - modélisation, estimation, choix de variables, examen de la validité du 
modèle choisi - restent les mêmes d’une méthode à l’autre. Cet aspect appa- 
raît nettement dans le dernier chapitre consacré à certaines extensions de la 
régression linéaire. Ces extensions ont chacune un caractère spécifique, mais les 
différentes étapes vues en régression se retrouvent dans chaque méthode. 

Cet ouvrage s'adresse aux étudiants des filières scientifiques, élèves ingé- 
nieurs, chercheurs dans les domaines appliqués (économie, biologie, sciences de 
la vie...) et plus généralement à tous les chercheurs souhaitant modéliser des 
relations de causalité. Il utilise aussi les notions d'intervalle de confiance, de 
test et les lois de probabilités classiques. Pour les lecteurs n’ayant aucune no- 
tion de ces concepts, le livre de Lejeune (2004) dans la même collection pourra 
constituer une aide précieuse pour certains paragraphes. Cet ouvrage néces- 
site la connaissance des bases du calcul matriciel : définition d’une matrice, 
somme, produit, inverse, ainsi que valeurs propres et vecteurs propres pour le 
dernier chapitre. Des résultats classiques sont toutefois rappelés en annexes afin 
d'éviter de consulter trop souvent d’autres ouvrages. 

Cet ouvrage souhaite concilier les fondements théoriques nécessaires à la 
compréhension et à la pratique de la méthode. Nous avons donc souhaité un 
livre avec toute la rigueur scientifique possible mais dont le contenu et les idées 
ne soient pas noyés dans les démonstrations et les lignes de calculs. Pour cela, 
seules quelques démonstrations, que nous pensons importantes, sont conservées 
dans le corps du texte. Les autres résultats sont démontrés à titre d'exercice. 
Des exercices, de difficulté variable, sont proposés en fin de chapitre. La présence 
de Ÿ indique des exercices plus difficiles que la majorité des exercices proposés. 
Des questions de cours sous la forme de QCM sont aussi proposées afin d’aider 
aux révisions du chapitre. Les corrections de tous les exercices sont fournies en 
annexe À. Une partie « notes » présente en fin de chapitre des discussions ou 
extensions, cette partie pourra être ignorée lors d’une première lecture. 

Afin que les connaissances acquises ne restent pas théoriques, nous avons in- 
tégré des exemples traités avec le logiciel libre GNU-R (http://www.r-project. 
org). Afin que les lecteurs puissent se familiariser avec le logiciel et retrouver les 
mêmes résultats que ceux donnés dans le livre, les commandes sont rapportées 
dans le livre. Nous encourageons donc les lecteurs à utiliser les données (qui 
se trouvent sur les pages web des auteurs) et les codes afin de s'approprier la 
théorie mais aussi la pratique. 


Au niveau de l’étude des chapitres, le premier de ceux-ci, consacré à la 
régression simple, est traité afin de présenter de nombreux concepts et idées. 
Il est donc important de le lire afin de se familiariser avec les problèmes et les 
solutions envisagés ainsi qu'avec l’utilité des hypothèses de la régression. 

Le second chapitre présente l’estimation et la géométrie de la méthode des 
moindres carrés. Il est donc fondamental. 

Le troisième chapitre aborde la partie inférentielle. Il représente la partie 
la plus technique et la plus calculatoire de cet ouvrage. En première lecture, il 
pourra apparaître comme fastidieux, mais la lecture et la compréhension de la 
géométrie des tests entre modèles emboîtés semblent nécessaires. Le calcul des 
lois pour le praticien peut être omis. 

Le quatrième chapitre présente très peu de calculs. Il permet de vérifier que 
le modèle, et donc les conclusions que l’on peut en tirer, sont justes. Cette 
partie est donc fondamentale pour le praticien. De plus, les idées sous-jacentes 
sont utilisées dans de très nombreuses méthodes statistiques. La lecture de ce 
chapitre est indispensable. 

Le cinquième chapitre présente l'introduction de variables explicatives qua- 
litatives dans le modèle de régression, soit en interaction avec une variable 
quantitative (analyse de la covariance), soit seules (analyse de la variance). 
La présentation oublie volontairement les formules classiques des estimateurs 
à base de somme et de moyenne par cellule. Nous nous focalisons sur les pro- 
blèmes de paramètres et de contraintes, problèmes qui amènent souvent une 
question naturelle à la vue des listings d’un logiciel : « Tiens, il manque une 
estimation d’un paramètre ». Nous avons donc souhaité répondre simplement 
à cette question inhérente à la prise en compte de variables qualitatives. 

Le sixième chapitre présente le choix de variables (ou de modèles). Nous 
présentons le problème via l’analyse d’un exemple à 3 variables. À partir des 
conclusions tirées de cet exemple, nous choiïsissons un critère de sélection (erreur 
quadratique moyenne où EQM) et nous proposons des estimateurs cohérents. 
Ensuite, nous axons la présentation sur l’utilisation des critères classiques et 
des algorithmes de choix de modèles présents dans tous les logiciels et nous 
comparons ces critères. Enfin, nous discutons des problèmes engendrés par cette 
utilisation classique. Ce chapitre est primordial pour comprendre la sélection 
de modèle et ses problèmes. 

Le septième chapitre propose les premières extensions de la régression. Il 
s’agit principalement d’une présentation succincte de certaines méthodes uti- 
lisées en moindres carrés généralisés. Elle présente aussi une approche de la 
régression par la méthode des noyaux. 

Enfin, le huitième chapitre présente des extensions classiques (ridge, régres- 
sion sur composantes principales) ou plus actuelles (lasso ou PLS) de la régres- 
sion. D’un point de vue théorique, elles permettent d'approfondir les problèmes 
de contraintes sur le vecteur de coefficients. Chaque méthode est présentée d’un 
point de vue pratique de manière à permettre une prise en main rapide de la 
méthode. Elles sont illustrées sur le même exemple de spectroscopie, domaine 
d'application désormais très classique pour ces méthodes. 


Table des matières 


1 La régression linéaire simple 


dl. Introduction ste à & aies UM RE À Rd ages LS ai 
1.1.1 Un exemple : la pollution de l'air . ............ 
1.1.2 Un deuxième exemple : la hauteur des arbres . . . . .. 
1.2 Modélisation mathématique . ................... 
1.2.1 Choix du critère de qualité et distance à la droite . . . . 
1.2.2 Choix des fonctions à utiliser . . . ............ 
1.3 Modélisation statistique . . .................... 
1.4  Estimateurs des moindres carrés ................. 
1.4.1 Calcul des estimateurs de B;, quelques propriétés . . .. 
1.42  Résidus et variance résiduelle . . ............. 
15453: Prévisions 2 4 à AU aout ain de 4 Re ons 4 
1.5 Interprétations géométriques . .................. 
1.5.1 Représentation des individus . .............. 
1.5.2 Représentation des variables . . . . . ........... 
1.5.3 Le coefficient de détermination R? ............ 
1.6 Inférence statistique . ....................... 
1.4 Exemples 4% aude ah Ain de de ne 4 & done 
1.7.1 La concentration en ozone . ................ 
1.7.2 La hauteur des eucalyptus . . ............... 
1:8 + EXÉTCICES, 22 mes mate rer nee 6 UE a BEL 4 
1.9 Notes : estimateurs du maximum de vraisemblance . . . . . .. 


La régression linéaire multiple 

2:11 ::Mtroductions. 4 5 EAN EL ES RE A RS es Le 

2,2: Modélisation 34422 404882 dupe D ai ne unie anale 

2.3 Estimateurs des moindres carrés ................. 
Re NO TC OR PE ER TT 
2.3.2 Interprétation . ....................... 
2.3.3 Quelques propriétés statistiques . . . . . . . . . . . . .. 
2.3.4  Résidus et variance résiduelle . .............. 
2:36. Prévision. 4-8 Bois 4 use panne au me 4 a #a 

2.4 Interprétation géométrique .................... 


Régression - Théorie et applications 


2:5. Exemples: 2 ua se es 4 Lan boum 4 a date 
2.5.1 La concentration en ozone . ................ 
2.5.2 La hauteur des eucalyptus . . ............... 

2:6: xercices: Sin MUR NE EE En P RE LEA A te ire 


Inférence dans le modèle gaussien 
3.1 Estimateurs du maximum de vraisemblance . . . .. .. .... 
3.2 Nouvelles propriétés statistiques . . . . . . . . . . . ....... 
3.3 Intervalles et régions de confiance . ................ 
3:24 Exemple: se bn à Dane dus D D 4 ner een dire 
3.0: -PTÉVISIONL 2 Us eh ut ad 8 ne NL JP ugen mme d'acier pesant né 
3.6 Les tests d’hypothèses . ...................... 
3.61." Introduction 52 2 22.44 am dass apanues 
3.6.2 Test entre modèles emboîtés . . .............. 
3:14 -Pxemplés: 5 ans ue  Haunte & Hi dla danois caches rie 
3.7.1 La concentration en ozone . ................ 
3.7.2 La hauteur des eucalyptus . . . .............. 
dL02: + HRÉTCICES: NA rh ne te Dh eut D td mins aus He dla ee à 
JT NOÉES. he RDS CEE DURE A nn 2 PAS ES ON de A 
3.9.1 Intervalle de confiance : bootstrap . . .......... 
3.9.2 Test de Fisher pour une hypothèse linéaire quelconque . 
3.9.3 Propriétés asymptotiques . ................ 


Validation du modèle 
4.1 Analyse des résidus . ........................ 
4.1.1 Les différents résidus . . .................. 
4.1.2  Ajustement individuel au modèle, valeur aberrante . . . 
4.1.3 Analyse de la normalité . ................. 
4.1.4 Analyse de l’homoscédasticité . . . ............ 
4.1.5 Analyse de la structure des résidus . . . . . . . . . . .. 
41:67 : Conclusion 3458 Le Lg LA Abe rare are Ré 
4.2 Analyse de la matrice de projection. ............... 
43 Autres mesures diagnostiques . . ................. 
4.4 Effet d’une variable explicative . ................. 
44.1  Ajustement au modèle ................... 
4.4.2  Régression partielle : impact d’une variable . . . . . .. 
4.4.3  Résidus partiels et résidus partiels augmentés . . . . .. 
4.5 Exemple : la concentration en ozone ............... 
46. Exercices: Liste as ae M at le ee BEL NEUTE à 


Régression sur variables qualitatives 

Di, Introduction: "412 4 4 8 MD AR eut BPM 

5.2 Analyse de la covariance . . .................... 
5.2.1 Introduction : exemple des eucalyptus . . ........ 
5.2.2 Modélisation du problème ................. 


Table des matières xiii 


5.2.3 Hypothèse gaussienne . .................. 108 
5.2.4 Exemple : la concentration en ozone . .......... 109 
5.2.5 Exemple : la hauteur des eucalyptus . . . ........ 114 
5.3 Analyse de la variance à un facteur . ............... 116 
5.3.1 Introduction ........................ 116 
5.3.2 Modélisation du problème ................. 117 
5.3.3 Estimation des paramètres . ............... 119 
5.3.4 Interprétation des contraintes . . . .. . ......... 120 
5.3.5 Hypothèse gaussienne et test d'influence du facteur . . . 120 
5.3.6 Exemple : la concentration en ozone . .......... 122 
5.3.7 Une décomposition directe de la variance . . . . . ... 127 
5.4 Analyse de la variance à deux facteurs . . . . . ......... 127 
5.4.1 Introduction ........................ 127 
5.4.2 Modélisation du problème . ................ 128 
5.4.3 Estimation des paramètres . ............... 130 
5.44 Analyse graphique de l'interaction . ........... 131 
5.4.5  Hypothèse gaussienne et test de l'interaction . . . ... 133 
5.4.6 Tableau d’analyse de la variance . ............ 135 
DAT Conclusion 2.24 srsntie, us buts BUS RAY Dr NS 2 136 
5.4.8 Exemple : la concentration en ozone . .......... 136 
DD: ÉXETCICOS" 5% ae huh ad ere goutte fe Jane ant 0 tord de dE 138 
5.6 Notes : identifiabilité et contrastes . . . ............. 139 
Choix de variables 143 
6:1. Introductions 4245. ed LME Me ne De bn dneent de 143 
6.2 Choix incorrect de variables : conséquences . . . .. . ..... 145 
6.2.1 Analyse du biais des estimateurs . ............ 145 
6.2.2 Analyse de la variance des estimateurs . . . . . . . . .. 147 
6.2.3 Erreur quadratique moyenne ............... 148 
6.2.4 Erreur quadratique moyenne de prévision . ....... 151 
6.3 La sélection de variables en pratique . .............. 153 
6.3.1 Deux jeux de données ou beaucoup d'observations . .. 153 
6.3.2 Un seul jeu de données et peu d'observations . . . . .. 154 
6.4 Critères classiques de choix de modèles ............. 155 
6.4.1 Tests entre modèles emboîtés . .............. 155 
CADRE nee mine dans Mr Dome 156 
6:43. Le R? ajusté 3.2 2 sauces din se MAN RE AE 158 
6.44 Le C, de Mallows ..................... 159 
6.4.5  Vraisemblance et pénalisation . . . .. . ... ...... 162 
6.4.6 Lien entre les critères . .................. 163 
6.5 Procédure de sélection ....................... 165 
6.5.1 Recherche exhaustive. . .................. 165 
6.5.2 Recherche pas à pas .................... 166 
6.6 Exemple : la concentration en ozone ............... 168 


6.7 Sélection et shrinkage ....................... 170 


XIV 


Régression - Théorie et applications 


GS: “BXEFCICES: Lens ha me 4 dns MON A A moe Un tente 173 
6.9 Notes : extension du C, ...................... 174 
Moindres carrés généralisés 179 
2.1 Introductions. Hétu du à be ip at ma ranenieten ET e 179 
7.2 Moindres carrés pondérés ..................... 180 
7.3  Estimateur des moindres carrés généralisés . . . . . . . . . . .. 183 
7.3.1  Estimateur des MCG et optimalité . . .......... 184 
7.3.2  Résidus et estimateur de ao? ................ 185 
7.3.3  Hypothèse gaussienne ................... 186 
7.8.4 Matrice Q inconnue .................... 186 
7.4 Extension des moindres carrés pondérés : la régression locale . 191 
70: -BXERCICOS. ut ue Poe ant apte 0 A0 4e cute A 194 
Régression biaisée 197 
8.1 Régression ridge .......................... 198 
8.1.1 Equivalence avec une contrainte sur la norme des coeffi- 
CIENÉS a aa 2, Ge a le dm nn een dame 199 
8.1.2 Propriétés statistiques de l’estimateur ridge Briage .... 200 
8.1.3 La régression ridge en pratique . ............. 202 
8.1.4 Exemple des biscuits . . .................. 205 
Gi 2e MLASSOR ER ES MAS RE CR EAN Un Ne ns 209 
8.2.1 La méthode ......................... 209 
8.2.2 La régression lasso en pratique . ............. 210 
8.2.3 Exemple des biscuits . . .................. 211 
8.3 Régression sur composantes principales . . . . . ... ...... 213 
8.3.1 Hypothèse H1 satisfaite : [X'X| Z0 ........... 214 
8.3.2 Colinéarité parfaite : [X'X[=0.............. 215 
8.3.3 Pratique de la régression sur composantes principales . 217 
8.3.4 Exemple des biscuits . . .................. 221 
8.4 Régression aux moindres carrés partiels (PLS) .......... 223 
8.4.1 Algorithmes PLS et recherche des composantes . . . .. 225 
8.4.2 Recherche de la taille k .................. 226 
8.4.3 Analyse de la qualité du modèle ............. 228 
8.4.4 Exemple des biscuits . . .................. 230 
8:54  Exercicés, 20m nas gt ne ne a LE RD à BRU SRE 231 
Corrections des exercices 239 
A.1 Régression linéaire simple ..................... 239 
A.2 Régression linéaire multiple . ................... 243 
A.3 Inférence dans le modèle gaussien . . . .............. 248 
A4 Validation du modèle. ....................... 253 
A.5 Régression sur variables qualitatives . . ............. 256 
A.6 Choix de variables . ........................ 262 


A.7 Moindres carrés généralisés . ................... 264 


Table des matières 


XV 


A.8 Régression biaisée 


B Rappels 


B.1 Rappels d’algèbre 
B.2 Rappels de probabilités 
B.2.1 Généralités 
B.2.2 Vecteurs aléatoires gaussiens 
B.3 Tables des lois usuelles 
B.3.1 Loi normale X + W(0,1) 
B.3.2 Loi de Student X = T, 
B.3.3 Loi du Khi-deux à v ddl X + y? 
B.3.4 Loi de Fisher à 2,122 ddl X + F( 


Bibliographie 
Index 


Notations 


Chapitre 1 


La régression linéaire simple 


1.1 Introduction 


L'origine du mot régression vient de Sir Francis Galton. En 1885, travaillant 
sur l’hérédité, il chercha à expliquer la taille des fils en fonction de celle des 
pères. Il constata que lorsque le père était plus grand que la moyenne, taller 
than mediocrity, son fils avait tendance à être plus petit que lui et, a contrario, 
que lorsque le père était plus petit que la moyenne, shorter than mediocrity, 
son fils avait tendance à être plus grand que lui. Ces résultats l’ont conduit à 
considérer sa théorie de regression toward mediocrity. Cependant l’analyse de 
causalité entre plusieurs variables est plus ancienne et remonte au milieu du 
Xvinl® siècle. En 1757, R. Boscovich, né à Ragussa, l’actuelle Dubrovnik, pro- 
posa une méthode minimisant la somme des valeurs absolues entre un modèle 
de causalité et les observations. Ensuite Legendre dans son célèbre article de 
1805, « Nouvelles méthodes pour la détermination des orbites des comètes », 
introduit la méthode d’estimation par moindres carrés des coefficients d’un mo- 
dèle de causalité et donna le nom à la méthode. Parallèlement, Gauss publia en 
1809 un travail sur le mouvement des corps célestes qui contenait un dévelop- 
pement de la méthode des moindres carrés, qu’il affirmait utiliser depuis 1795 
(Birkes & Dodge, 1993). 

Dans ce chapitre, nous allons analyser la régression linéaire simple : nous 
pouvons la voir comme une technique statistique permettant de modéliser la 
relation linéaire entre une variable explicative (notée X) et une variable à ex- 
pliquer (notée Y). Cette présentation va nous permettre d’exposer la régression 
linéaire dans un cas simple afin de bien comprendre les enjeux de cette méthode, 
les problèmes posés et les réponses apportées. 


1.1.1 Un exemple : la pollution de l’air 


La pollution de l’air constitue actuellement une des préoccupations majeures 
de santé publique. De nombreuses études épidémiologiques ont permis de mettre 
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en évidence l'influence sur la santé de certains composés chimiques comme 
le dioxyde de souffre (SO2), le dioxyde d’azote (NO), l’ozone (O3) ou des 
particules sous forme de poussières contenues dans l’air. L'influence de cette 
pollution est notable sur les personnes sensibles (nouveau-nés, asthmatiques, 
personnes âgées). La prévision des pics de concentration de ces composés est 
donc importante. 

Nous allons nous intéresser plus particulièrement à la concentration en 
ozone. Nous possédons quelques connaissances a priori sur la manière dont 
se forme l’ozone, grâce aux lois régissant les équilibres chimiques. La concen- 
tration de l’ozone sera fonction de la température; plus la température sera 
élevée, plus la concentration en ozone va augmenter. Cette relation très vague 
doit être améliorée afin de pouvoir prédire les pics d'ozone. 

Afin de mieux comprendre ce phénomène, l'association Air Breizh (sur- 
veillance de la qualité de l’air en Bretagne) mesure depuis 1994 la concentration 
en O3 (en ug/ml) toute les 10 minutes et obtient donc le maximum journalier de 
la concentration en O3, noté dorénavant 03. Air Breizh collecte également à cer- 
taines heures de la journée des données météorologiques comme la température, 
la nébulosité, le vent. Les données sont disponibles en ligne (cf. Avant-propos). 
Le tableau suivant donne les 10 premières mesures effectuées. 


Tableau 1.1. 10 données de température à 12 h et teneur en ozone. 


Individu 03 | T12 
1 63.6 | 13.4 
2 89.6 15 
3 79 7.9 
4 81.2 | 13.1 
5 88 | 14.1 
6 68.4 | 16.7 
7 139 | 26.8 
8 78.2 | 18.4 
9 113.8 | 27.2 
10 41.8 | 20.6 


Nous allons donc chercher à expliquer le maximum de 03 de la journée par 
la température à 12 h. D'un point de vue pratique le but de cette régression est 
double : 

— ajuster un modèle pour expliquer la concentration en 03 en fonction de 

T12; 
— prédire les valeurs de concentration en 03 pour de nouvelles valeurs de 
T12. 

Avant toute analyse, il est intéressant de représenter les données. Voici donc 
une représentation graphique des données. Chaque point du graphique (fig.1.1) 
représente, pour un jour donné, une mesure de la température à 12 h et le pic 
d’ozone de la journée. 
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Fig. 1.1. 50 données journalières de température et 08. 


Pour analyser la relation entre les x; (température) et les y; (ozone), nous 
allons chercher une fonction f telle que 


yi © f(ai). 


Pour définir &, il faut donner un critère quantifiant la qualité de l’ajustement 
de la fonction f aux données et une classe de fonctions G dans laquelle est 
supposée se trouver la vraie fonction inconnue. Le problème mathématique 
peut s’écrire de la façon suivante : 


argmin (y: — f(æi)), (1.1) 


fe 2 


où n représente le nombre de données à analyser et {(.) est appelée fonction de 
coût ou encore fonction de perte. 


1.1.2 Un deuxième exemple : la hauteur des arbres 


Cet exemple utilise des données fournies par l’'UR2PI et le CIRAD forêt 
(cf. Avant-propos). Lorsque le forestier évalue la vigueur d’une forêt, il consi- 
dère souvent la hauteur des arbres qui la compose. Plus les arbres sont hauts, 
plus la forêt ou la plantation produit. Si l’on cherche à quantifier la production 
par le volume de bois, il est nécessaire d’avoir la hauteur de l’arbre pour calcu- 
ler le volume de bois grâce à une formule du type « tronc de cône ». Cependant, 
mesurer la hauteur d’un arbre d’une vingtaine de mètres n’est pas aisé et de- 
mande un dendromètre. Ce type d'appareil mesure un angle entre le sol et le 
sommet de l’arbre. Il nécessite donc une vision claire de la cime de l’arbre et 
un recul assez grand afin d’avoir une mesure précise de l’angle et donc de la 
hauteur. 

Dans certains cas, il est impossible de mesurer la hauteur, car ces deux 
conditions ne sont pas réunies, ou la mesure demande quelquefois trop de temps 
ou encore le forestier n’a pas de dendromètre. Il est alors nécessaire d’estimer la 
hauteur grâce à une mesure simple, la mesure de la circonférence à 1 mètre 30 
du sol. 
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Nous possédons des mesures sur des eucalyptus dans une parcelle plantée 
et nous souhaitons à partir de ces mesures élaborer un modèle de prévision 
de la hauteur. Les eucalyptus étant plantés pour servir de matière première 
dans la pâte à papier, ils sont vendus au volume de bois. Il est donc important 
de connaître le volume et par là même la hauteur, afin d'évaluer la réserve en 
matière première dans la plantation (ou volume sur pied total). Les surfaces 
plantées sont énormes, il n’est pas question de prendre trop de temps pour la 
mesure et prévoir la hauteur par la circonférence est une méthode permettant 
la prévision du volume sur pied. La parcelle d’intérêt est constituée d’eucalyp- 
tus de 6 ans, âge de « maturité » des eucalyptus, c’est-à-dire l’âge en fin de 
rotation avant la coupe. Dans cette parcelle, nous avons alors mesuré n = 1429 
couples circonférence-hauteur. Le tableau suivant donne les 10 premières me- 
sures effectuées. 


Tableau 1.2. Hauteur et circonférence (ht et circ) des 10 premiers eucalyptus. 


Individu ht | circ 
1 18.25 36 
2 19.75 42 
3 16.50 33 
4 18.25 39 
5 19.50 43 
6 16.25 34 
7 17.25 37 
8 19.00 41 
9 16.25 27 
10 17.50 30 


Nous souhaitons donc expliquer la hauteur par la circonférence. Avant toute 
modélisation, nous représentons les données. Chaque point du graphique 1.2 
représente une mesure du couple circonférence/hauteur sur un eucalyptus. 


30 40 50 60 70 


Fig. 1.2. Représentation des mesures pour les n = 1429 eucalyptus mesurés. 
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Pour prévoir la hauteur en fonction de la circonférence, nous allons donc 
chercher une fonction f telle que 


yi & f(x) 


pour chaque mesure à € {1,...,1429}. 

Afin de quantifier précisément le symbole %, nous allons choisir une classe 
de fonctions G. Cette classe représente tous les modèles de prévisions que l’on 
s’autorise afin de prévoir la hauteur en fonction de la circonférence. Ensuite, 
nous cherchons parmi ces modèles le meilleur, c’est-à-dire nous cherchons la 
fonction de G qui soit la plus proche possible des données selon une fonction 
de coût. Cela s'écrit 


Î l Sc i)); 
mem) (y: — f(xi)) 


où n représente le nombre de données à analyser et {(.) est appelée fonction de 
coût ou encore fonction de perte. 


Remarque 

Le calcul du volume proposé ici est donc fait en deux étapes : dans la première 
on estime la hauteur et dans la seconde on utilise une formule de type « tronc 
de cône » pour calculer le volume avec la hauteur estimée et la circonférence. 
Une autre méthode de calcul de volume consiste à ne pas utiliser de formule 
incluant la hauteur et prévoir directement le volume en une seule étape. Pour 
cela il faut calibrer le volume en fonction de la circonférence et il faut donc 
la mesure de nombreux volumes en fonction de circonférences, ce qui est très 
coûteux et difficile à réactualiser. 


1.2 Modélisation mathématique 


Nous venons de voir que le problème mathématique peut s’écrire de la façon 
suivante (cf. équation 1.1) : 


arg re lui — f(i)), 


où {(.) est appelée fonction de coût et G un ensemble de fonctions données. 
Dans la suite de cette section, nous allons discuter du choix de la fonction de 
coût et de l’ensemble G. Nous présenterons des graphiques illustratifs bâtis à 
partir de 10 données fictives de température et de concentration en ozone. 


1.2.1 Choix du critère de qualité et distance à la droite 


De nombreuses fonctions de coût {(.) existent, mais les deux principales 
utilisées sont les suivantes : 
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— I(u) = u? coût quadratique ; 
— Î(u) = fu] coût absolu. 
Ces deux fonctions sont représentées sur le graphique 1.3 : 


Fig. 1.3. Coût absolu (pointillés) et coût quadratique (trait plein). 


Ces fonctions sont positives, symétriques, elles donnent donc la même valeur 
lorsque l'erreur est positive ou négative et s’annulent lorsque u vaut zéro. 


La fonction | peut aussi être vue comme la distance entre une observation 
(x, Y:) et son point correspondant sur la droite (x;, f(x;)) (voir fig. 1.4). 


03 
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Fig. 1.4. Distances à la droite : coût absolu (pointillés) et distance d’un point 
à une droite. 


Par point correspondant, nous entendons « évalué » à la même valeur x;. Nous 
aurions pu prendre comme critère à minimiser la somme des distances des 
points (x;,y:) à la droite ! (cf. fig. 1.4), mais ce type de distance n’entre pas 
dans le cadre des fonctions de coût puisqu’au point (x;,y;) correspond sur la 
droite un point (x!, f(x!)) d’abscisse et d’ordonnée différentes. 

Il est évident, que par rapport au coût absolu, le coût quadratique accorde 
une importance plus grande aux points qui restent éloignés de la droite ajustée, 
la distance étant élevée au carré (cf. fig. 1.3). Sur l’exemple fictif, dans la classe 


1La distance d’un point à une droite est la longueur de la perpendiculaire à cette droite 
passant par ce point. 


La régression linéaire simple 


G des fonctions linéaires, nous allons minimiser 5, (y; f(x:))? (coût quadra- 
tique) et >; [y: — f(x;)| (coût absolu). Les droites ajustées sont représentées 
sur le graphique ci-dessous : 
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Fig. 1.5. 10 données fictives de température et 03, régressions avec un coût 
absolu (trait plein) et quadratique (pointillé). 


La droite ajustée avec un coût quadratique propose un compromis où aucun 
point n’est très éloigné de la droite : le coût quadratique est sensible aux points 
aberrants qui sont éloignés de la droite. Ainsi (fig. 1.5) le premier point d’abs- 
cisse approximative 7°C est assez éloigné des autres. La droite ajustée avec 
un coût quadratique lui accorde une plus grosse importance que l’autre droite 
et passe relativement donc plus près de lui. En enlevant ce point (de manière 
imaginaire), la droite ajustée risque d’être très différente : le point est dit in- 
fluent et le coût quadratique peu robuste. Le coût absolu est plus robuste et la 
modification d’une observation modifie moins la droite ajustée. Les notions de 
points influents, points aberrants, seront approfondies au chapitre 4. 

Malgré cette non-robustesse, le coût quadratique est le coût le plus sou- 
vent utilisé, ceci pour plusieurs raisons : historique, calculabilité, propriétés 
mathématiques. En 1800, il n’existait pas d'ordinateur et l’utilisation du coût 
quadratique permettait de calculer explicitement les estimateurs à partir des 
données. À propos de l’utilisation d’autres fonctions de coût, voici ce que disait 
Gauss (1809) : « Mais de tous ces principes, celui des moindres carrés est le 
plus simple : avec les autres, nous serions conduits aux calculs les plus com- 
plexes ». En conclusion, seul le coût quadratique sera automatiquement utilisé 
dans la suite de ce livre, sauf mention contraire. Les lecteurs intéressés par le 
coût absolu peuvent consulter le livre de Dodge & Rousson (2004). 


1.2.2 Choix des fonctions à utiliser 


Si la classe G est trop large, par exemple la classe des fonctions continues 
(Co), un grand nombre de fonctions de cette classe minimisent le critère (1.1). 
Ainsi toutes les fonctions de la classe qui passent par tous les points (interpo- 
lation), quand c’est possible, annulent la quantité 377, E(uyi — f(xi)). 


Régression - Théorie et applications 


03 
100 150 


50 


Fig. 1.6. Deux fonctions continues annulant le critère (1.1). 


La fonction continue tracée en pointillés sur la figure (fig. 1.6) semble inappro- 
priée bien qu’elle annule le critère (1.1). La fonction continue tracée en traits 
pleins annule aussi le critère (1.1). D’autres fonctions continues annulent ce 
critère, la classe des fonctions continues est trop vaste. Ces fonctions passent 
par tous les points et c’est là leur principal défaut. Nous souhaitons plutôt une 
courbe, ne passant pas par tous les points, mais possédant un trajet harmo- 
nieux, sans trop de détours. Bien sûr le trajet sans aucun détour est la ligne 
droite et la classe G la plus simple sera l’ensemble des fonctions affines. Par 
abus de langage, on emploie le terme de fonctions linéaires. D’autres classes de 
fonctions peuvent être choisies et ce choix est en général dicté par une connais- 
sance a priori du phénomène et (ou) par l’observation des données. 


Ainsi une étude de régression linéaire simple débute toujours par un tracé 
des observations (x,y). Cette première représentation permet de savoir si le 
modèle linéaire est pertinent. Le graphique suivant représente trois nuages de 
points différents. 


7 (a) ) | TT 


Fig. 1.7. Exemples fictifs de tracés : (a) fonction sinusoïdale, (b) fonction 
croissante sigmoïdale et (c) droite. 


Au vu du graphique, il semble inadéquat de proposer une régression linéaire 
pour les deux premiers graphiques, le tracé présentant une forme sinusoïdale ou 
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sigmoïdale. Par contre, la modélisation par une droite de la relation entre X et 
Y pour le dernier graphique semble correspondre à la réalité de la liaison. Dans 
la suite de ce chapitre, nous prendrons G = {f: f(x) =ax+b, (a,b) € R?}. 


1.3 Modélisation statistique 


Lorsque nous ajustons par une droite les données, nous supposons implici- 
tement qu’elles étaient de la forme 


Y = Bi + PrX. 


Dans l’exemple de l’ozone, nous supposons donc un modèle où la concentration 
d'ozone dépend linéairement de la température. Nous savons pertinemment 
que toutes les observations mesurées ne sont pas sur la droite. D’une part, 
il est irréaliste de croire que la concentration de l’ozone dépend linéairement 
de la température et de la température seulement. D'autre part, les mesures 
effectuées dépendent de la précision de l’appareil de mesure, de l’opérateur 
et il arrive souvent que, pour des valeurs identiques de la variable X, nous 
observions des valeurs différentes pour Y. 

Nous supposons alors que la concentration d'ozone dépend linéairement de 
la température mais cette liaison est perturbée par un « bruit ». Nous supposons 
en fait que les données suivent le modèle suivant : 


Y = Bi + BX +e. (1.2) 


L'équation (1.2) est appelée modèle de régression linéaire et dans ce cas 
précis modèle de régression linéaire simple. Les G;, appelés les paramètres 
du modèle (constante de régression et coefficient de régression), sont fixes mais 
inconnus, et nous voulons les estimer. La quantité notée € est appelée bruit, ou 
erreur, et est aléatoire et inconnue. 

Afin d’estimer les paramètres inconnus du modèle, nous mesurons dans le 
cadre de la régression simple une seule variable explicative ou variable exogène 
X et une variable à expliquer ou variable endogène Y.. La variable X est souvent 
considérée comme non aléatoire au contraire de Y. Nous mesurons alors n 
observations de la variable X, notées x;, où 4 varie de 1 à n et n valeurs de la 
variable à expliquer Ÿ notées y;. 

Nous supposons que nous avons collecté n couples de données (x;,y;) où 
yi est la réalisation de la variable aléatoire Y;. Par abus de notation, nous 
confondrons la variable aléatoire Y; et sa réalisation, l’observation y;. Avec la 
notation €;, nous confondrons la variable aléatoire avec sa réalisation. Suivant 
le modèle (1.2), nous pouvons écrire 


Yi = Pi + Bat: + €, i=l,...,n 


où 
— les x; sont des valeurs connues non aléatoires ; 
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— les paramètres G;, j = 1,2 du modèle sont inconnus ; 
— les £; sont les réalisations inconnues d’une variable aléatoire ; 
— les y; sont les observations d’une variable aléatoire. 


1.4 Estimateurs des moindres carrés 

Définition 1.1 (estimateurs des MC) 

On appelle estimateurs des moindres carrés (MC) de B1 et B2, les estimateurs 
B et Po obtenus par minimisation de la quantité 


nm 


S(B, 82) = V (ui — Bi — Bari)? = |Y — Bi1 — B2X|?, 


i=1 
où L est le vecteur de IR” dont tous les coefficients valent 1. Les estimateurs 
peuvent également s’écrire sous la forme suivante : 


(Ba, Be) = argmin  S(1,/02). 


(B1,62)ERXR 


1.4.1 Calcul des estimateurs de 5, quelques propriétés 


La fonction S(/1,/2) est strictement convexe. Si elle admet un point singu- 
lier, celui-ci correspond à l’unique minimum. Annulons les dérivées partielles, 
nous obtenons un système d'équations appelées « équations normales » : 


25 (B1. 8 n . 
__- _ ES LP 2 Be) = 0, 
O5(B1, 62) 
58 : 2) — Bat) = = 


La première équation donne 


nm nm 
Bin+BS x : Dar 
i=1 i=1 

et nous avons un estimateur de l’ordonnée à l’origine 
Bi = 5 02e, (1:3) 


où & = ÿ_x;/n. La seconde équation donne 
nm nm nm 
à à _—. 
Bi ) Ti + O2 ) Ti — ) TiVi- 
i=1 i=1 i=1 


En remplaçant 1 par son expression (1.3) nous avons une première écriture de 


â ET DE T 
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et en utilisant astucieusement la nullité de la somme Ÿ (x; — Z), nous avons 
d’autres écritures pour l’estimateur de la pente de la droite 


D Dmgi 9) | Ci —T)(yi 9) | Dai — TZ) (14) 
Bat s) n-nfm-a) lt -2) | 


Pour obtenir ce résultat, nous supposons qu’il existe au moins deux points 
d’abscisses différentes. Cette hypothèse notée H, s'écrit x; Z x; pour au moins 
deux individus. Elle permet d’obtenir l’unicité des coefficients estimés f1, 52. 


Une fois déterminés les estimateurs G1 et 52, nous pouvons estimer la droite 
de régression par la formule 


Ÿ = fr + BoX. 


Si nous évaluons la droite aux points x; ayant servi à estimer les paramètres, 
nous obtenons des ÿ; et ces valeurs sont appelées les valeurs ajustées. Si nous 
évaluons la droite en d’autres points, les valeurs obtenues seront appelées les 
valeurs prévues ou prévisions. Représentons les points initiaux et la droite de 
régression estimée. La droite de régression passe par le centre de gravité du 
nuage de points (Z,ÿ) comme l'indique l'équation (1.3). 
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Fig. 1.8. Nuage de points, droite de régression et centre de gravité. 


Nous avons réalisé une expérience et avons mesuré n valeurs (x;,%;). À partir 
de ces n valeurs, nous avons obtenu un estimateur de 1 et de fH2. Si nous 
refaisions une expérience, nous mesurerions n nouveaux couples de données 
(t;,y:). À partir de ces données, nous aurions un nouvel estimateur de Bi et 
de H2. Les estimateurs sont fonction des données mesurées et changent donc 
avec les observations collectées (fig. 1.9). Les vraies valeurs de G1 et S2 sont 
inconnues et ne changent pas. 
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Echantillon 1 Echantillon 2 Echantillon 3 
s 15 400 2 à 1STREN 1e © 6 CRUE 
Estimation Estimation Estimation 
B2 & 1.01 B2 & 1.49 B> & 0.825 
Bi & 0.499 Bi  —0.424 Bi & 0.669 


x rs 
Valeurs des estimateurs G1 et B2 pour différents échantillons 


Fig. 1.9. Exemple de la variabilité des estimations. Le vrai modèle est Y — 
X +0.5+E, où € est choisi comme suivant une loi W(0,0.25). Nous avons ici 
3 répétitions de la mesure de 10 points (x;,y;), ou 3 échantillons de taille 10. 
Le trait en pointillé représente la vraie droite de régression et le trait plein son 
estimation. 


Le statisticien cherche en général à vérifier que les estimateurs utilisés ad- 

mettent certaines propriétés comme 

— un estimateur f est-il sans biais ? Par définition @ est sans biais si E(6) = 
5. En moyenne sur toutes les expériences possibles de taille n, l’estimateur 
re moyen sera égal à la valeur inconnue du paramètre. En français, cela 
signifie qu’en moyenne B «tombe» sur B: 

— un estimateur B est-il de variance minimale parmi les estimateurs d’une 
classe définie ? En d’autres termes, parmi tous les estimateurs de la classe, 
l’estimateur utilisé admet-il parmi toutes les expériences la plus petite 
variabilité ? 

Pour cela, nous supposons une seconde hypothèse notée H{2 qui s’énonce aussi 
comme suit : les erreurs sont centrées, de même variance (homoscédasticité) 
et non corrélées entre elles. Elle permet de calculer les propriétés statistiques 
des estimateurs. H2 : E(e;) = 0, pour à = 1,--. ,n et Cov(e;,€;) = d;ja?, où 
E(e) est l'espérance de €, Cov(e;,e;) est la covariance entre &; et €; et 0; =1 
lorsque à = j et d;; = 0 lorsque à Æ j. Nous avons la première propriété de ces 
estimateurs (voir exercice 1.2) 


Proposition 1.1 (Biais des estimateurs) 
A et Bo sont des estimateurs sans biais de B1 et B2, c’est-à-dire que 
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E(f1) = Bi et E(B2) = 2. 


Les estimateurs B et Bo sont sans biais, nous allons nous intéresser à leur 
variance. Afin de montrer que ces estimateurs sont de variances minimales 
dans leur classe, nous allons d’abord calculer leur variance (voir exercices 1.3, 
1.4, 1.5). C’est l’objet de la prochaine proposition. 


Proposition 1.2 (Variances de {1 et B2) 
Les variances et covariance des estimateurs des paramètres valent : 


MR CEE 
eee 


Cov(z, B <= —,. 
(B, 62) Se . 
Cette proposition nous permet d’envisager la précision de l’estimation en utili- 
sant la variance. Plus la variance est faible, plus l’estimateur sera précis. Pour 
avoir des variances petites, il faut avoir un numérateur petit et (ou) un déno- 
minateur grand. Les estimateurs seront donc de faibles variances lorsque : 

— la variance o? est faible. Cela signifie que la variance de Y est faible et 

donc les mesures sont proches de la droite à estimer ; 

— la quantité 5(x; — x)? est grande, les mesures x; doivent être dispersées 

autour de leur moyenne ; 

— la quantité ÿzx? ne doit pas être trop grande, les points doivent avoir 

une faible moyenne en valeur absolue. En effet, nous avons 
Dr? _Dai-n tn _,, nx? 
D(mi 7) DORE Dei 2) 
L'’équation (1.3) indique que la droite des MC passe par le centre de gravité du 
nuage (T,ÿ). Supposons Z positif, alors si nous augmentons la pente, l’ordonnée 
à l’origine va diminuer et vice versa. Nous retrouvons donc le signe négatif pour 
la covariance entre G1 et H2. 

Nous terminons cette partie concernant les propriétés par le théorème de 
Gauss-Markov qui indique que, parmi tous les estimateurs linéaires sans biais, 
les estimateurs des MC possèdent la plus petite variance (voir exercice 1.6). 
Théorème 1.1 (Gauss-Markov) 


Parmi les estimateurs sans biais linéaires en Y, les estimateurs B; sont de 
variance minimale. 


1.4.2 Résidus et variance résiduelle 


Nous avons estimé 3 et 8. La variance 0? des &; est le dernier paramètre 
inconnu à estimer. Pour cela, nous allons utiliser les résidus : ce sont des esti- 
mateurs des erreurs inconnues €;. 
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Définition 1.2 (Résidus) 
Les résidus sont définis par 
Êi = Yi — Ÿ 
où ÿ; est la valeur ajustée de y; par le modèle, c’est-à-dire ÿ; = B + Box: 
Nous avons la propriété suivante (voir exercice 1.7). 


Proposition 1.3 
Dans un modèle de régression linéaire simple, la somme des résidus est nulle. 


Intéressons-nous maintenant à l’estimation de o? et construisons un estimateur 
sans biais 4? (cf. exercice 1.8) : 


Proposition 1.4 (Estimateur de la variance du bruit) 
La statistique 6? = 5%, &?/(n — 2) est un estimateur sans biais de o?. 
1.4.3 Prévision 


Un des buts de la régression est de proposer des prévisions pour la variable 
à expliquer Ÿ. Soit x,+1 une nouvelle valeur de la variable X, nous voulons 
prédire yn+1. Le modèle indique que 


Yn+1 = Pi + Brtnti + Enti 


avec E(en11) = 0, V(en:1) = 0? et Cov(en1,€;) = 0 pour à = 1,--: ,n. Nous 
pouvons prédire la valeur correspondante grâce au modèle estimé 

Pan = + li 
En utilisant la notation ÿh., nous souhaitons insister sur la notion de prévision : 
la valeur pour laquelle nous effectuons la prévision, ici la (n+1)°, n’a pas servi 
dans le calcul des estimateurs. Remarquons que cette quantité sera différente 
de la valeur ajustée, notée %;, qui elle fait intervenir la 4° observation. 


Deux types d'erreurs vont entacher notre prévision, l’une due à la non- 
connaissance de €,+1 et l’autre due à l’estimation des paramètres. 


Proposition 1.5 (Variance de la prévision ÿn+1) 
La variance de la valeur prévue de ÿ},, vaut 


PAC) 


n 


La variance de ÿ5,, (voir exercice 1.9) nous donne une idée de la stabilité 
de l’estimation. En prévision, on s’intéresse généralement à l’erreur que l’on 
commet entre la vraie valeur à prévoir y»+1 et celle que l’on prévoit ÿh... 
L'erreur peut être simplement résumée par la différence entre ces deux valeurs, 
c’est ce que nous appellerons l’erreur de prévision. Cette erreur de prévision 
permet de quantifier la capacité du modèle à prévoir. Nous avons sur ce thème 
la proposition suivante (voir exercice 1.10). 
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Proposition 1.6 (Erreur de prévision) 
L'erreur de prévision, définie par LE] = Yn+1 — Uni satisfait les propriétés 
suivantes : 


E(é.,) = 0 


VE) = (: | Re me). 


Remarque 

La variance augmente lorsque x,41 s'éloigne du centre de gravité du nuage. 
Effectuer une prévision lorsque x,+1 est «loin» de x est donc périlleux, la 
variance de l’erreur de prévision peut alors être très grande! 


1.5 Interprétations géométriques 


1.5.1 Représentation des individus 


Pour chaque individu, ou observation, nous mesurons une valeur x; et une 
valeur y;. Une observation peut donc être représentée dans le plan, nous dirons 
alors que R?° est l’espace des observations. B correspond à l’ordonnée à l’origine 
alors que Bo représente la pente de la droite ajustée. Cette droite minimise 
la somme des carrés des distances verticales des points du nuage à la droite 
ajustée. 


Q 
7 |, Pi + Dot à » 
ÿ Fi + Bat) É(o) 
ee nn 
0. | 
co 2 
l 
CE | 
| 
| 
a | 
0 5 10 Is 30 25 ÿ 30 35 
T12 29) 
Fig. 1.10. Représentation des individus. 
Les couples d'observations (x;,y;) avec à = 1,...,n ordonnées suivant les va- 


leurs croissantes de x sont notés (x(;), y). Nous avons représenté la neuvième 
valeur de x et sa valeur ajustée ÿ(9) = B + Bat(o) sur le graphique, ainsi que 
le résidu correspondant £(9). 


1.5.2 Représentation des variables 


Nous pouvons voir le problème d’une autre façon. Nous mesurons n couples 
de points (x;,y;). La variable X et la variable Y peuvent être considérées 
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comme deux vecteurs possédant n coordonnées. Le vecteur X (respectivement 
Y) admet pour coordonnées : les observations 41,%2,...,4h (respectivement 
Y1,Y2,-.., Yn). Ces deux vecteurs d'observations appartiennent au même espace 
IR" : l’espace des variables. Nous pouvons donc représenter les données dans 
l’espace des variables. Le vecteur 1 est également un vecteur de R” dont toutes 
les composantes valent 1. Les 2 vecteurs 1 et X engendrent un sous-espace de 
R” de dimension 2. Nous avons supposé que 1 et X ne sont pas colinéaires grâce 
à Hi mais ces vecteurs ne sont pas obligatoirement orthogonaux. Ces vecteurs 
sont orthogonaux lorsque Æ, la moyenne des observations æ1,æ%2,...,%n vaut 
zéro (voir la remarque ci-dessous). 

La régression linéaire peut être vue comme la projection orthogonale du 
vecteur Ÿ dans le sous-espace de R” engendré par 1 et X, noté S(X). Les 
coefficients Ba et Pa s’interprètent comme les composantes de la projection 
orthogonale notée Ÿ de Ÿ sur ce sous-espace. Voyons cela sur le graphique 
suivant : 


M» 


Fig. 1.11. Représentation de la projection dans l’espace des variables. 


Remarque 

Les vecteurs 1 et X de normes respectives ÿ/n et 4/57, x? ne forment pas 
une base orthogonale. Afin de savoir si ces vecteurs sont orthogonaux, calculons 
leur produit scalaire. Le produit scalaire est la somme du produit terme à terme 
des composantes des deux vecteurs et vaut ici D 7, x; x 1 = nx. Les vecteurs 
forment une base orthogonale lorsque la moyenne de X est nulle. En effet x 
vaut alors zéro et le produit scalaire est nul. Les vecteurs n’étant en général 
pas orthogonaux, cela veut dire que B1 n’est pas la projection de Y sur la 
droite engendrée par 1 et que B2X n’est pas la projection de Ÿ sur la droite 
engendrée par X. Nous reviendrons sur cette différence au chapitre suivant. 


1.5.3 Le coefficient de détermination R? 


Un modèle, que l’on qualifiera de bon, possédera des estimations Ÿ; proches 
des vraies valeurs y;. Sur la représentation dans l’espace des variables (fig. 1.11) 
la qualité peut être évaluée par l’angle 0. Cet angle est compris entre -90 ‘et 
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90 * . Un angle proche de -90 * ou de 90 * indique un modèle de mauvaise qualité. 
Le cosinus carré de @ est donc une mesure possible de la qualité du modèle et 
cette mesure varie entre 0 et 1. 

Le théorème de Pythagore nous donne directement que 


IY -g1 = [Y - 511? + él? 
Du- = D G-D+3 € 
i—1 i=1 i=1 


SCT = SCE+SCR, 


où SCT (respectivement SCE et SCR) représente la somme des carrés totale 
(respectivement expliquée par le modèle et résiduelle). 


Le coefficient de détermination R? est défini par 


Re _SCE _IŸ-71/? 
SCT | - ÿ1|2? 


c’est-à-dire la part de la variabilité expliquée par le modèle sur la variabilité 
totale. De nombreux logiciels multiplient cette valeur par 100 afin de donner 
un pourcentage. 


Remarques 

Dans ce cas précis, R? est le carré du coefficient de corrélation empirique entre 

les x; et les y; et 
— le R? correspond au cosinus carré de l’angle 0 ; 
— si R? = 1, le modèle explique tout, l’angle 0 vaut donc zéro, Y est dans 

SX) c’est-à-dire que y; = Pi + Par: ; 

— si R? = 0, cela veut dire que 52(ÿ; — ÿ)? = 0 et donc que ÿ; = ÿ. Le 
modèle de régression linéaire est inadapté ; 

— si R? est proche de zéro, cela veut dire que Y est quasiment dans l’ortho- 
gonal de S(X), le modèle de régression linéaire est inadapté, la variable 
X utilisée n’explique pas la variable Y. 


1.6 Inférence statistique 


Jusqu’à présent, nous avons pu, en choisissant une fonction de coût quadra- 
tique, ajuster un modèle de régression, à savoir calculer G1 et H2. Grâce aux 
coefficients estimés, nous pouvons donc prédire, pour chaque nouvelle valeur 
Tn+1 une valeur de la variable à expliquer ÿ} 41 qui est tout simplement le 
point sur la droite ajustée correspondant à l’abscisse x,+1. En ajoutant l’hypo- 
thèse H2, nous avons pu calculer l’espérance et la variance des estimateurs. Ces 
propriétés permettent d'appréhender de manière grossière la qualité des esti- 
mateurs proposés. Le théorème de Gauss-Markov permet de juger de la qualité 
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des estimateurs parmi une classe d’estimateurs : les estimateurs linéaires sans 
biais. Enfin ces deux hypothèses nous ont aussi permis de calculer l’espérance 
et la variance de la valeur prédite 97,1. 

Cependant nous souhaitons en général connaître la loi des estimateurs afin 
de calculer des intervalles ou des régions de confiance ou effectuer des tests. 
Il faut donc introduire une hypothèse supplémentaire concernant la loi des €;. 
L'hypothèse H2 devient 


ra | Ei  N(0, 0?) 


€; sont indépendants 


où W(0, «?) est une loi normale d'espérance nulle et de variance o?. Le modèle 
de régression devient le modèle paramétrique {IR”, BR», N(31 + B2x, o?)}, où 
Bi, Bo, o? sont à valeurs dans R, R et R+ respectivement. La loi des €; étant 
connue, nous en déduisons la loi des y;. Toutes les preuves de cette section 
seront détaillées au chapitre 8. 

Nous allons envisager dans cette section les propriétés supplémentaires des 
estimateurs qui découlent de l’hypothèse H3 (normalité et indépendance des 
erreurs) : 

— lois des estimateurs O1, 2 et 67; 

— intervalles de confiance univariés et bivariés ; 

— loi des valeurs prévues ÿh., et intervalle de confiance. 

Cette partie est plus technique que les parties précédentes. Afin de faciliter 
la lecture, considérons les notations suivantes : 


SC Cage LE 

7 De DCE 
où 6? — 5 £?/(n — 2). Cet estimateur est donné au théorème 1.4. Notons que 
les estimateurs de la colonne de gauche ne sont pas réellement des estimateurs. 
En effet puisque o? est inconnu, ces estimateurs ne sont pas calculables avec les 
données. Cependant ce sont eux qui interviennent dans les lois des estimateurs 
Bi et bo (cf. proposition ci-dessous). Les estimateurs donnés dans la colonne de 
droite sont ceux qui sont utilisés (et utilisables) et ils consistent simplement à 
remplacer o? par 62. 


Les lois des estimateurs sont données dans la proposition suivante. 


Proposition 1.7 (Lois des estimateurs : variance connue) 
Les lois des estimateurs des MC sont : 


(i) À = N (B,03,). 
(ii) Be AN (2, o3,). 


mi [à Lareoms= [ave [En 2] 
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7. we 2) 


(v) (Bi; B2) et 6? sont indépendants. 


à? suit une loi du X? à (n — 2) degrés de liberté (ddl) (x2_»). 


La variance o? n’est pas connue en général, nous l’estimons par 6?. Les esti- 


mateurs des MC ont alors les propriétés suivantes. 


Proposition 1.8 (Lois des estimateurs : variance estimée) 


Lorsque o? est estimée par &?, nous avons 
(i) PE À © Tn-2 Où Tn-2 est une loi de Student à (n — 2) ddl. 
52 
En 
(ii) Br B2 _ PRES 
di 
(ii) a-8)Vr (6-0) © Fan-2; Où Fan-2 est une loi de Fisher à 2 ddl 


au numérateur et (n — 2) ddl au dénominateur. 


Ces dernières propriétés nous permettent de donner des intervalles de confiance 


(IC) ou des régions de confiance (RC) des paramètres inconnus. En effet, la va- 
leur ponctuelle d’un estimateur est en général insuffisante et il est nécessaire de 
lui adjoindre un intervalle de confiance. Nous parlerons d'intervalle de confiance 
quand un paramètre est univarié et de région de confiance quand le paramètre 
est multivarié. 


Proposition 1.9 (IC et RC de niveau 1 — a pour les paramètres) 
(i) Un IC de B; (ie {1,2}) est donné par : 


(6. —tn-a(1— a/2)6,, Bi + ta-2(1 — a/2)63, (1.5) 


Où tn-2(1 — à/2) représente le fractile de niveau (1 — a/2) d’une loi Th_2. 
(ii) Une région de confiance simultanée des deux paramètres inconnus B est 
donnée par l'équation suivante : 


1 
26? 


[CB Bi)? +2n8(B1 — B)(B2 — B2)+3 2(Pa — B2)? Sera) 


où f(2,n-2(1 — à) représente le fractile de niveau (1 — a) d’une loi de Fisher à 
(2,n — 2) ddl. 
(ii) Un IC de o? est donné par : 


(n — 2)6? (n — 2)6? | 
Cn-2(1—a/2) cy_o(a/2) |” 


Où Cn-2(1 — «/2) représente le fractile de niveau (1 — a/2) d’une loi du x? à 
(n — 2) degrés de liberté. 
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Remarque 

La propriété (ii) donne la région de confiance simultanée des paramètres de la 
régression 8 — ({1,/B2)", appelée ellipse de confiance grâce à la loi du couple. Au 
contraire (i) donne l'intervalle de confiance d’un paramètre sans tenir compte 
de la corrélation entre B et Bo. Il est donc délicat de donner une région de 
confiance du vecteur (/1,/32) en juxtaposant les deux intervalles de confiance. 


Ba 
10 1.5 2.0 25 30 35 40 
1 


Fig. 1.12. Comparaison entre ellipse et rectangle de confiance. 


Un point peut avoir chaque coordonnée dans son IC respectif mais ne pas ap- 
partenir à l’ellipse de confiance. Le point À est un exemple de ce type de point. 
À contrario, un point peut appartenir à la RC sans qu'aucune de ces coordon- 
nées n’appartiennent à son IC respectif (le point B). 

L’ellipse de confiance n’est pas toujours calculée par les logiciels de statis- 
tique. Le rectangle de confiance obtenu en juxtaposant les deux intervalles de 
confiance peut être une bonne approximation de l’ellipse si la corrélation entre 
bi et Bo est faible. 


Nous pouvons également donner un intervalle de confiance de la droite de 
régression. 


Proposition 1.10 (IC pour E(y:)) 
Un IC de Ely;) = 1 + Box est donné par : 


b hi ea LE SE | (1.6) 


En calculant les IC pour tous les points de la droite, nous obtenons une hyper- 
bole de confiance. En effet, lorsque x; est proche de %, le terme dominant de 
la variance est 1/n, mais dès que x; s'éloigne de %, le terme dominant est le 
terme au carré. 

Nous avons les mêmes résultats que ceux obtenus à la section (1.4.3). Enon- 
çons le résultat permettant de calculer un intervalle de confiance pour une 
valeur prévue : 
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Proposition 1.11 (IC pour yn+1) 
Un IC de yn+1 est donné par : 


(xt; —& 


»? 
Dix) |] 


1 
Qi € aa are fr+ eh 17 


Cette formule exprime que plus le point à prévoir est éloigné de %, plus la 
variance de la prévision et donc l’IC seront grands. Une approche intuitive 
consiste à remarquer que plus une observation est éloignée du centre de gra- 
vité, moins nous avons d’information sur elle. Lorsque la valeur à prévoir est à 
l’intérieur de l’étendue des x;, le terme dominant de la variance est la valeur 1 
et donc la variance est relativement constante. Lorsque x,+1 est en dehors de 
l'étendue des x;, le terme dominant peut être le terme au carré, et la forme de 
l'intervalle sera à nouveau une hyperbole. 


1.7 Exemples 


1.7.1 La concentration en ozone 


Nous allons traiter les 50 données journalières de concentration en ozone. 
La variable à expliquer est la concentration en ozone notée 03 et la variable 


explicative est la température notée T12. Les données sont traitées avec le lo- 
giciel GNU-R. 


e Pour une régression simple, nous commençons toujours par représenter les 
données. 


ozone <- read.table("ozone.txt",header=T,sep=";") 
plot(T12,03,xlab="T12",ylab="03") 


03 


10 15 T122 25 30 


Fig. 1.13. 50 données journalières de température et 03. 
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Ce graphique permet de vérifier visuellement si une régression linéaire est per- 
tinente. Autrement dit il suffit de regarder si le nuage de point s’étire le long 
d’une droite. Bien qu'ici il semble que le nuage s’étire sur une première droite 
jusqu’à 22 ou 23 °C puis selon une autre droite pour les hautes valeurs de 
températures, nous pouvons tenter une régression linéaire simple. 


e Nous effectuons ensuite la régression linéaire, c’est-à-dire la phase d’esti- 
mation. 


reg <- 1m(03"T12,data=ozone) 
Afin de consulter les résultats, nous effectuons 


resume <- summary(reg) 
resume 


et nous obtenons alors le résumé suivant : 


Call: 
im(formula = 03 ” T12) 
Residuals: 
Min 1Q Median 3Q Max 


-45.256 -15.326 -3.461 17.634 40.072 


Coefficients 

Estimate Std. Error t value Pr(>Iltl) 
(Intercept) 31.4150 13.0584 2.406 0.0200 * 
T12 2.7010 0.6266 4.311 8.04e-05 Xk*X% 


Signif. codes: O ‘xxx? 0.001 ‘xx? 0.01 ‘x? 0.05 ‘.? 0.1 ‘ ? 1 
Residual standard error: 20.5 on 48 degrees of freedom 
Multiple R-Squared: 0.2791, Adjusted R-squared: 0.2641 
F-statistic: 18.58 on 1 and 48 DF, p-value: 8.041e-05 


Les sorties du logiciel donnent une matrice (sous le mot Coefficients) qui 
comporte pour chaque paramètre (chaque ligne) 5 colonnes. La première co- 
lonne contient les estimations des paramètres (colonne Estimate), la seconde 
les écarts-types estimés des paramètres (Std. Error). Dans la troisième co- 
lonne (t value) figure la valeur observée de la statistique de test d’hypothèse 
Ho : f; = 0 contre Hi : B; £ 0. La quatrième colonne (Pr(>|t1)) contient la 
probabilité critique (ou « p-value ») qui est la probabilité, pour la statistique 
de test sous Ho, de dépasser la valeur estimée. Enfin la dernière colonne est 
une version graphique du test : *** signifie que le test rejette Ho pour des 
erreurs de première espèce supérieures ou égales à 0.001, xx signifie que le test 
rejette Ho, pour des erreurs de première espèce supérieures ou égales à 0.01, * 
signifie que le test rejette Ho pour des erreurs de première espèce supérieures 
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ou égales à 0.05,. signifie que le test rejette Ho pour des erreurs de première 
espèce supérieures ou égales à 0.1. 

Ici, nous rejetons l'hypothèse H, pour les deux paramètres estimés au niveau 
a = 5 %. Dans le cadre de la régression simple, cela permet d’effectuer de 
manière rapide un choix de variable pertinente. En toute rigueur, si les pour 
les deux paramètres l'hypothèse H4 est acceptée, il est nécessaire de reprendre 
un modèle en supprimant le paramètre dont la probabilité critique est la plus 
proche de 1. Dans ce cas-là, dès la phase de représentation des données, de gros 
doutes doivent apparaître sur l’intérêt de la régression linéaire simple. 

Le résumé de l’étape d'estimation fait figurer l’estimation de o& qui vaut ici 
20.5 ainsi que le nombre n—2 = 48 qui est le nombre de degré de liberté associé, 
par exemple, aux tests d’hypothèse Ho : B; = 0 contre H: : 6; Z 0. 

La valeur du R? est également donnée, ainsi que le R? ajusté (voir la défi- 
nition 2.4 p. 45). La valeur du R? est faible (R? — 0.28) et nous retrouvons la 
remarque effectuée à propos de la figure (fig. 1.13) : peut être qu’une régression 
linéaire simple n'est-elle pas adaptée ici. 

La dernière ligne, surtout utile en régression multiple, indique le test entre 
le modèle utilisé et le modèle n’utilisant que la constante comme variable ex- 
plicative. Nous reviendrons sur ce test au chapitre 8. 


e Afin d'examiner la qualité du modèle et des observations, nous traçons la 
droite ajustée et les observations. Comme il existe une incertitude dans les 
estimations, nous traçons aussi un intervalle de confiance de la droite (à 95 


%). 


plot(03"T12,data=ozone) 

Ti2=seq(min(ozonel,"T12"]) ,max(ozonel,"T12"]) ,length=100) 

grille <- data.frame(Ti2) 

ICdte <- predict(reg,new=grille,interval="confidence" ,level1=0.95) 
matlines(grille$Ti2,cbind(ICdte), lty=c(1,2,2) ,col=1) 


03 


30 


Fig. 1.14. 50 données journalières de température et 03 et l’ajustement linéaire 
obtenu. 
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Ce graphique permet de vérifier visuellement si une régression est correcte, 
c’est-à-dire de constater la qualité d'ajustement de notre modèle. 

Nous constatons que les observations qui possèdent de faibles valeurs ou 
de fortes valeurs de température sont au-dessus de la droite ajustée (fig. 1.14) 
alors que les observations qui possèdent des valeurs moyennes sont en dessous. 
Les erreurs ne semblent donc pas identiquement distribuées. Pour s’en assurer 
il est aussi possible de tracer les résidus. Pour une régression simple, les deux 
choix sont possibles, mais pour une régression multiple, seul le tracé des résidus 
sera réalisable. Enfin l’intervalle de confiance à 95 % est éloigné de la droite. 
Cet intervalle peut être vu comme « le modèle peut être n'importe quelle droite 
dans cette bande ». Il en découle que la qualité de l’estimation ne semble pas 
être très bonne. 


e Dans une optique de prévision, il est nécessaire de s'intéresser à la qualité 
de prévision. Cette qualité peut être envisagée de manière succincte grâce à 
l'intervalle de confiance des prévisions. Afin de bien le distinguer de celui de la 
droite, nous figurons les deux sur le même graphique. 


plot(03"T12,data=ozone,ylim=c(0,150)) 

T12 <- seq(min(ozonel,"T12"]),max(ozonel,"T12"]) ,length=100) 
grille <- data.frame(T12) 

ICdte <- predict(reg,new=grille,interval="conf",level=0.95) 
ICprev <- predict(reg,new=grille,interval="pred",level=0.95) 
matlines(Ti2,cbind(ICdte,ICprevl,-1]),1ty=c(1,2,2,3,3) ,col=1) 
legend(8,145,1ty=2:3,c("prev","E(y)")) 


20 25 30 
Fig. 1.15. Droite de régression et intervalles de confiance pour Ÿ et pour E(Y). 


Afin d'illustrer les équations des intervalles de confiance pour les prévisions et 
la droite ajustée (équations (1.6) et (1.7), p. 21), nous remarquons bien évidem- 
ment que l'intervalle de confiance des prévisions est plus grand que l'intervalle 
de confiance de la droite de régression. L’intervalle de confiance de la droite de 
régression admet une forme hyperbolique. 
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e Si nous nous intéressons au rôle des variables, nous pouvons calculer les 
intervalles de confiance des paramètres. Ce calcul n’est pas automatique mais 
il est relativement simple (voir équation 1.5 p. 19). Il nécessite d’utiliser les 
informations sur les coefficients contenues dans l’objet resume et plus particu- 
lièrement les estimations des coefficients et les estimations de leur écart-type. 
Cette extraction est faite à l’aide de la fonction coef() et permet d’obtenir la 
matrice 2 lignes X 4 colonnes contenant toutes ces informations. 


seuil <- qt(0.975,df-a$df.res) 

betaimin <- coef (resume) [1,1]-seuil*xcoef (resume) [1,2] 
betaimax <- coef (resume) [1,1]+seuil*xcoef (resume) [1,2] 
c(betaimin,betaimax) 

[1] 5.159232 57.670715 

beta2min <- coef (resume) [2,1]-seuil*xcoef (resume) [2,2] 
beta2max <- coef (resume) [2,1]+seuil*xcoef (resume) [2,2] 
c(beta2min,beta2max) 

[1] 1.441180 3.960890 


L’intervalle de confiance à 95 % sur l’ordonnée à l’origine est étendu (52.5). 
Cela provient des erreurs (l'estimation de © est de 20.5), mais surtout du fait 
que les températures sont en moyenne très loin de 0. Cependant ce coefficient 
ne fait pas très souvent l’objet d'interprétation. 

L'autre IC à 95 % est moins étendu (2.5). Nous constatons qu’il semble 
exister un effet de la température sur les pics d’ozone, bien que l’on se pose la 
question de la validité de l'hypothèse linéaire, et donc de la conclusion énoncée 
ci-dessus. 


e Pour aller plus loin, il est possible de tracer la région de confiance simulta- 
née des deux paramètres, ce qui est rarement fait en pratique. Nous pouvons la 
comparer aux intervalles de confiance au même degré de confiance. Cette com- 
paraison illustre uniquement la différence entre intervalle simple et région de 
confiance. En général l’utilisateur de la méthode choisit l’une ou l’autre forme. 
Pour cette comparaison, nous utilisons les commandes suivantes : 


library(ellipse) 

plot(ellipse(reg,level=0.95) ,type="l",xlab="betal" ,ylab="beta2") 

points(coef (reg) [1], coef(a) [2] ,pch=3) 

####### comparaison avec IC 

lines(c(betaimin,betaimin,betaimax,betaimax,betaimin), 
c(beta2min,beta?2max,beta?2max,beta2min,beta?2min) ,1ty=2) 

plot(ellipse(a,level=0.95) ,type="1",xlab="betai" ,ylab="beta2") 

points(a$coefficients[1], a$coefficients[2] ,pch=3) 

lines(c(betaimin,betaimin,betaimax,betaimax,betaimin), 
c(beta2min,beta?2max,beta?2max,beta2min,beta?2min) ,1ty=2) 
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Fig. 1.16. Région de confiance simultanée des deux paramètres. 


Les axes de l’ellipse ne sont pas parallèles aux axes du graphique, les deux 
estimateurs sont corrélés. Nous retrouvons que la corrélation entre les deux 
estimateurs est toujours négative (ou nulle), le grand axe de l’ellipse ayant une 
pente négative. Nous observons bien sûr une différence entre le rectangle de 
confiance, juxtaposition des deux intervalles de confiance et l’ellipse. 


1.7.2 La hauteur des eucalyptus 


Nous allons reprendre le même schéma que celui de l’exemple de la prévision 
d'ozone. 


e Pour une régression simple, nous commençons toujours par représenter les 
données. 


plot(ht”circ,data=eucalyptus,xlab="circ",ylab="ht") 


30 40 50. 60 70 
CIC 


Fig. 1.17. Représentation des mesures pour les n = 1429 eucalyptus mesurés. 


Cela nous permet de savoir qu’une régression simple semble indiquée, les points 
étant disposés grossièrement le long d’une droite. Trois arbres semblent avoir 
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des hauteurs et circonférences très élevées, supérieurs à 70 cm. 


e Nous effectuons ensuite la régression linéaire, c’est-à-dire la phase d’estima- 
tion. 


reg <- Im(ht”circ,data=eucalypt) 
Afin de consulter les résultats, nous effectuons 


resume <- summary(reg) 
resume 


et nous obtenons alors le résultat de la phase d’estimation 


Call: 
Im(formula = ht ” circ, data = eucalypt) 


Residuals: 
Min 1Q Median 3Q Max 
-4.76589 -0.78016 0.05567 0.82708 3.69129 


Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
(Intercept) 9.037476 0.179802 50.26 <2e-16 **x% 
circ 0.257138 0.003738 68.79 <2e-16 *x*x%*% 


Signif. codes: O0 ?***? 0.001 ?**x? 0.01 ?*x? 0.05 ?.? 0.1 ? ? 1 


Residual standard error: 1.199 on 1427 degrees of freedom 
Multiple R-Squared: 0.7683, Adjusted R-squared: 0.7682 
F-statistic: 4732 on 1 and 1427 DF, p-value: < 2.2e-16 


Nous retrouvons comme sortie la matrice des informations sur les coefficients, 
matrice qui comporte 4 colonnes et autant de lignes que de coefficients (voir 
1.7.1, p. 23). Les tests de nullité des deux coefficients indiquent qu’ils semblent 
tous deux significativement non nuls (quand l’autre coefficient est fixé à la 
valeur estimée). 

Le résumé de l’étape d'estimation fait figurer l’estimation de o& qui vaut ici 
1.199 ainsi que le nombre n — 2 = 1427 qui est le nombre de degrés de liberté 
associés, par exemple, aux tests d’hypothèse H, : B; = 0 contre H; : 8; £ 0. 

La valeur du R? est également donnée, ainsi que le R2 ajusté (voir la défini- 
tion 2.4 p. 45). La valeur du R? est élevée (R? = 0.7683) et nous retrouvons la 
remarque déjà faite (fig. 1.17) : une régression linéaire simple semble adaptée. 

Le test F' entre le modèle utilisé et le modèle n’utilisant que la constante 
comme variable explicative indique que la circonférence est explicative et que 
l’on repousse le modèle utilisant que la constante comme variable explicative 
au profit du modèle de régression simple. Ce test n’est pas très utile ici car il 
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équivaut au test de nullité Ho : B2 = 0 contre H1 : 2 0. De plus, dès la 
première étape, nous avions remarqué que les points s’étiraient le long d’une 
droite dont le coefficient directeur était loin d’être nul. 


e Afin d'examiner la qualité du modèle et des observations, nous traçons la 
droite ajustée et les observations. Comme il existe une incertitude dans les 
estimations, nous traçons aussi un intervalle de confiance de la droite (à 95 


%). 


plot(ht”circ,data=eucalypt,pch="+",col="grey60") 
grille <- data.frame(seq(min(eucalypt[,"circ"]), 

max (eucalypt[l,"circ"]),length=100)) 
ICdte <- predict(reg,new=grille,interval="confi",level=0.95) 
matlines(grille$circ,lCdte, lty=c(1,2,2) ,col=1) 
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Fig. 1.18. Données de circonférence/hauteur et ajustement linéaire obtenu. 


Ce graphique permet de vérifier visuellement si une régression est correcte, 
c’est-à-dire de constater la qualité d’ajustement de notre modèle. Nous consta- 
tons que les observations sont globalement bien ajustées par le modèle, mais les 
faibles valeurs de circonférences semblent en majorité situées en dessous de la 
courbe. Ceci indique qu’un remplacement de cette droite par une courbe serait 
une amélioration possible. Peut être qu’un modèle de régression simple du type 


ht — Bo + BVcirc+e, 


serait plus adapté. Remarquons aussi que les 3 circonférences les plus fortes 
(supérieures à 70 cm) sont bien ajustées par le modèle. Ces 3 individus sont 
donc différents en terme de circonférence mais bien ajustés par le modèle. 
Enfin, l'intervalle de confiance à 95 % est proche de la droite. Cet intervalle 
peut être vu comme « le modèle peut être n'importe quelle droite dans cette 
bande ». Il en découle que la qualité de l’estimation semble être très bonne, ce 
qui est normal car le nombre d'individus (i.e. le nombre d’arbres) est très élevé 
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et les données sont bien réparties le long d’une droite. 


e Dans une optique de prévision, il est nécessaire de s’intéresser à la qualité 
de prévision. Cette qualité peut être envisagée de manière succincte grâce aux 
intervalles de confiance, de la droite ajustée et des prévisions. 


plot(ht”circ,data=eucalypt,pch="+",col="grey60") 

circ <- seq(min(eucalypt[,"circ"]),max(eucalypt[,"circ"]),1en-100) 
grille <- data.frame(circ) 

ICdte <- predict(reg,new=grille,interval="conf",level=0.95) 

ICprev <- predict(reg,new=grille,interval="pred",level=0.95) 
matlines(circ,cbind(ICdte,ICprevl,-1]),1ty=c(1,2,2,8,3) ,col=1) 
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Fig. 1.19. Droite de régression et intervalles de confiance pour Y et pour E(Y). 


Rien de notable sur l'intervalle de prévision, mis à part le fait qu’il est nécessaire 
de bien distinguer l'intervalle de confiance de la droite et de la prévision. 


1.8 Exercices 


Exercice 1.1 (Questions de cours) 

1. Lors d’une régression simple, si le R? vaut 1, les points sont-ils alignés ? 
A. Non; 
B. Oui; 
C. Pas obligatoirement. 

2. La droite des MC d’une régression simple passe-t-elle par le point (&, ÿ) ? 
A. Toujours; 
B. Jamais; 
C. Parfois. 


3. Nous avons effectué une régression simple, nous recevons une nouvelle 
observation zx et nous calculons la prévision correspondante ÿn. La va- 
riance de la valeur prévue est minimale lorsque 


A. æn =0; 
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B: SN = T;: 
C. aucun rapport. 

4. Le vecteur Ÿ est-il orthogonal au vecteur des résidus estimés é ? 
A. Toujours ; 


B. Jamais; 
C. Parfois. 


Exercice 1.2 (Biais des estimateurs) 
Calculer le biais de G2 et Bi. 


Exercice 1.3 (Variance de B2) 
Calculer la variance de GB. 


Exercice 1.4 (Variance de Bi) 
Calculer la variance de 51 (indice : calculer la covariance entre ÿ et Bo). 


Exercice 1.5 (Covariance de Bi et B2) 
Calculer la covariance entre H1 et BB. 


Exercice 1.6 (fThéorème de Gauss-Markov) 
Démontrer le théorème de Gauss-Markov en posant H2 = ne 1 Aigi, un esti- 
mateur linéaire quelconque (indice : trouver deux conditions sur la somme des 


À; pour que Bo ne soit pas biaisé, puis calculer la variance en introduisant Bo). 


Exercice 1.7 (Somme des résidus) 
Montrer que, dans un modèle de régression linéaire simple, la somme des résidus 
est nulle. 


Exercice 1.8 (Estimateur de la variance du bruit) 
Montrer que, dans un modèle de régression linéaire simple, la statistique & 
32; é7/(n — 2) est un estimateur sans biais de o°. 


2 — 


Exercice 1.9 (Variance de ÿ7,11) 
Calculer la variance de 9}. 1. 


Exercice 1.10 (Variance de l’erreur de prévision) 
Calculer la variance de é?... 


Exercice 1.11 (R? et coefficient de corrélation) 
Démontrer que le R? est égal au carré du coefficient de corrélation empirique 
entre les x; et les y. 


Exercice 1.12 (Les arbres) 
Nous souhaitons exprimer la hauteur y d’un arbre d’une essence donnée en 
fonction de son diamètre x à 1 m 30 du sol. Pour ce faire, nous avons mesuré 
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20 couples « diamêtre-hauteur ». Nous avons effectué les calculs suivants : 


1 20 
2=3849 > (x; — x) = 28.29  ÿ— 18.34 
i=1 
1 20 1 20 
— — À 2 = T Et 
mot n-285 35) (Eu 5) = 626 


1. On note ÿ — Bo + Biz, la droite de régression. Donner l'expression de Ba 
en fonction des statistiques élémentaires ci-dessus. Calculer H et B1. 


2. Donner et commenter une mesure de la qualité de l’ajustement des don- 
nées au modèle. Exprimer cette mesure en fonction des statistiques élé- 
mentaires. 


3. Cette question traite des tests qui seront vus au chapitre 3. Cependant 
cette question peut être résolue grâce à la section exemple. Les estimations 
a écarts-types de Bo et de Br donnent 6% — = 1.89 et &3, = 0.05. Testez 

: 5; = 0 contre Hi : B; Æ 0 pour j = 0,1. Pourquoi ce test est-il 
mi or dans notre contexte ? Que pensez-vous du résultat ? 


Exercice 1.13 (Modèle quadratique) 
Au vu du graphique 1.13, nous souhaitons modéliser l’ozone par la température 
au carré. 


1. Ecrire le modèle et estimer les paramètres. 


2. Comparer ce modèle au modèle linéaire classique. 


1.9 Notes : estimateurs du maximum de vrai- 
semblance 


Lorsque nous supposons que les résidus suivent une loi normale, le modèle 
de régression devient le modèle paramétrique {R°", Br, W(5: + Ba, o?)}, où 
Bi, B2, o? sont à valeurs dans R, R et R* respectivement. La loi des €; étant 
connue, nous en déduisons la loi des y;. Nous calculons la vraisemblance de 
l'échantillon ainsi que les estimateurs qui maximisent cette vraisemblance. 

Puisque les y; valent par hypothèse B1 + G2x; +E€;, nous savons grâce à H3 
que la loi des y; est une loi normale de moyenne 1 + fx, et de variance o?. 
L'indépendance des €; entraîne l’indépendance des y;. La vraisemblance vaut 
alors 
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L(B1, Ba, 9°) 


Il 


IT 00 
GC 


nm 1 nm 
=) cs | 202 du Bi as 


= (=) EC) : 


En passant au logarithme, nous obtenons : 


Il 


n 1 
log L(B1, B2,o°) = —, log 2r0" — 5581, 02). 


Calculons les dérivées par rapport à (1, (& et o? 


0 log L(B1, 2, 0°) _ 1 OS( (B1, B2) = Ë 
01 Es 20? 061 … o2 DIT Bet), 

Ô log L(/B1, B2, 0?) … 1 OS ( (B1, B2) .: 1 | 
ET = 292 . a Du — Boti), 

Ô log L(B1, 62, 0°) … n l | | 
do? = 202 U _ > Bi Bai)? Ë 


Les estimateurs du maximum de vraisemblance de B1, F2 sont identiques 
aux estimateurs obtenus par les MC. L’estimateur de o? vaut 


L’estimateur du MV de co? est donc biaisé car différent . l’estimateur des 
MC qui, lui, est non biaisé. Cela veut dire que E(62,,) # a? 


Chapitre 2 


La régression linéaire multiple 


2.1 Introduction 


La modélisation de la concentration d’ozone dans l’atmosphère évoquée au 
chapitre 1 est relativement simpliste. En effet, des variables météorologiques 
autres que la température peuvent expliquer cette concentration, comme par 
exemple le rayonnement, la précipitation ou encore le vent qui déplace les 
masses d’air. L'association Air Breizh mesure ainsi en même temps que la 
concentration d’ozone les variables météorologiques susceptibles d’avoir une 
influence sur celle-ci. Voici quelques-unes de ces données : 


Tableau 2.1. 10 données journalières. 


Individu 03 | T12 Vx | Ne12 
1 63.6 | 13.4 | 9.35 7 
2 89.6 15 5.4 4 
3 79 7.9 | 19.3 8 
4 81.2 | 13.1 | 12.6 7 
5 88 | 14.1 | -20.3 6 
6 68.4 | 16.7 | -3.69 7 
7 139 | 26.8 | 8.27 TL 
8 78.2 | 18.4 | 4.93 7 
9 113.8 | 27.2 | -4.93 6 
10 41.8 | 20.6 | -3.38 8 


La variable Vx est une variable synthétique représentant le vent. Le vent est 
normalement mesuré en degré (direction) et mètre par seconde (vitesse). La 
variable créée est la projection du vent sur l’axe est-ouest, elle tient compte de 
la direction et de la vitesse. La variable Ne12 représente la nébulosité mesurée 
à 12 heures. 
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Pour analyser la relation entre la température (T12), le vent (Vx), la nébu- 
losité à midi (Ne12) et l’ozone (03), nous allons chercher une fonction f telle 
que 


03; R f(T12:, Vx;, Ne12;). 


Afin de préciser le sens de &, il faut définir un critère positif quantifiant la qua- 
lité de l’ajustement de la fonction f aux données. Cette notion de coût permet 
d'appréhender de manière aisée les problèmes d’ajustement économique dans 
certains modèles. Minimiser un coût nécessite la connaissance de l’espace sur 
lequel on minimise, donc la classe de fonctions G dans laquelle nous supposerons 
que se trouve la vraie fonction inconnue. 

Le problème mathématique peut s’écrire de la façon suivante : 


a i l D il: s di , 
ep). (ui — fa, ,tip)) 


où n représente le nombre de données à analyser et {(.) est appelée fonction 
de coût. La fonction de coût sera la même que celle utilisée précédemment, 
c’est-à-dire le coût quadratique. En ce qui concerne le choix de la classe G, 
nous utiliserons pour commencer la classe des fonctions linéaires : 


= {f: fn. Tp) =) Pt; avec B; ERjE{L...,p}}. 


2.2 Modélisation 


Le modèle de régression multiple est une généralisation du modèle de ré- 
gression simple lorsque les variables explicatives sont en nombre fini. Nous 
supposons donc que les données collectées suivent le modèle suivant : 


Yi = Bitai + Patio + + + Bplip + Ei, i=l,...,n (2.1) 


où 
— les x;; sont des nombres connus, non aléatoires. La variable x;1 peut valoir 
1 pour tout à variant de 1 à n. Dans ce cas, GB représente la constante 
(intercept dans les logiciels anglo-saxons). En statistiques, cette colonne 
de 1 est presque toujours présente. 
— les paramètres à estimer B; du modèle sont inconnus. 
— les €; sont des variables aléatoires inconnues. 
En utilisant l’écriture matricielle de (2.1), nous obtenons la définition sui- 
vante. 


Définition 2.1 (Modèle de régression multiple) 
Un modèle de régression linéaire est défini par une équation de la forme 


Ynx1 = Xnxp Bpx1 + Enx1- (2.2) 
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où : 

e Ÿ est un vecteur aléatoire de dimension n, 

e X est une matrice de taille n X p connue, appelée matrice du plan d’expé- 
rience, X est la concaténation des p variables X; : X = (X1|X2|...|[X,). Nous 
noterons la i° ligne du tableau X par le vecteur ligne x% = (ti1,..., tip) ; 

e B est le vecteur de dimension p des paramètres inconnus du modèle ; 

e £ est le vecteur centré, de dimension n, des erreurs. 


Nous supposons que la matrice X est de plein rang. Cette hypothèse sera notée 
H1. Comme, en général, le nombre d'individus n est plus grand que le nombre 
de variables explicatives p, le rang de la matrice X vaut p. 

La présentation précédente revient à supposer que la fonction liant Y aux 
variables explicatives X est un hyperplan représenté (fig. 2.1). 


Fig. 2.1. Représentation géométrique de la relation Y = 3X1 + 4X2. 


Il est naturel dans nombre de problèmes de penser que des interactions 
existent entre les variables explicatives. Dans l’exemple de l’ozone, nous pou- 
vons penser que la température et le vent interagissent. Pour modéliser cette 
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interaction, nous écrivons en général un modèle avec un produit entre les va- 
riables explicatives qui interagissent. Ainsi, pour deux variables, nous avons la 
modélisation suivante : 


Yi = Bitir + Patio + Batiitio + €, i=1l,...,n. 


Les produits peuvent s’effectuer entre deux variables définissant des interactions 
d'ordre 2, entre trois variables définissant des interactions d'ordre 3, etc.. D’un 
point de vue géométrique, cela donne (fig. 2.2) : 


Fig. 2.2. Représentation géométrique de la relation y = X1 + 3X2 + 6X1X2. 


Cependant ce type de modélisation rentre parfaitement dans le cadre de la 
régression multiple. Les variables d’interaction sont des produits de variables 
connues et sont donc connues. Dans l’exemple précédent, la troisième variable 
explicative X3 sera tout simplement le produit X1X2 et nous retrouvons la 
modélisation proposée à la section précédente. 

De même, d’autres extensions peuvent être utilisées comme le modèle de 
régression polynômial. En reprenant notre exemple à deux variables explicatives 
X, et X2, nous pouvons proposer le modèle polynômial de degré 2 suivant : 


Yi = Biti + Patio + Bataitio + Bar + Bit + €, i=1,...,n. 
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Ce modèle peut être remis dans la formulation de la section précédente en 
posant X3 — X1Xo, X4 = X? et X53 = X£. L’hypersurface ressemble alors à 
(fig. 2.3) : 


Fig. 2.3. Représentation géométrique de la relation y = 10X1+8X2-6X; X2+ 
2X? +4X2. 


En conclusion nous pouvons considérer que n’importe quelle transformation 
connue et fixée des variables explicatives (logarithme, exponentielle, produit 
etc.) rentre dans le modèle de régression multiple. La transformée d’une variable 
explicative X: par une fonction connue et fixe (log par exemple) devient X; — 
log(X:) et le modèle reste donc un modèle de régression multiple. Par contre 
une transformation comme exp{—r(X1 — k)} qui est une fonction non linéaire 
de deux paramètres inconnus r et & ne rentre pas dans ce cadre. En effet ne 
connaissant pas r et k il est impossible de calculer exp{—r(X1 — k)} et donc 
de la noter X;. Ce type de relation est traité dans Antoniadis et al. (1992). 

Ainsi un modèle linéaire ne veut pas forcément dire que le lien entre variables 
explicatives et la variable à expliquer est linéaire mais que le modèle est linéaire 
en les paramètres. 
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2.3 Estimateurs des moindres carrés 
Définition 2.2 (Estimateur des MC) 


On appelle estimateur des moindres carrés (noté MC) B de B la valeur sui- 
vante : 
2 


n p 
B = argmin Yi — ÿ Bjtij | = argmin(Y — XB)'(Y — XB). 
Bi »Bp i=1 j=i BER? 


Théorème 2.1 (Expression de l’estimateur des MC) 
Si l’hypothèse H1 est vérifiée, l’estimateur des MC 6 de B vaut 


B=(X'X) !X"'Y. 


La section suivante est entièrement consacrée à ce résultat. 


2.3.1 Calcul de 5 


Il est intéressant de considérer les variables dans l’espace des variables (R”). 
Ainsi, Ÿ, vecteur colonne, définit dans IR” un vecteur OY d’origine © et d’ex- 
trémité Y. Ce vecteur a pour coordonnées (y1,-:: ,y). La matrice X du plan 
d'expérience est formée de p vecteurs colonnes. Chaque vecteur X; définit dans 
Run vecteur ox d’origine O et d’extrémité X;. Ce vecteur a pour coordon- 
nées (%1;,::: ,Æn;). Ces p vecteurs linéairement indépendants (hypothèse H1) 
engendrent un sous-espace vectoriel de IR”, noté dorénavant S(X), de dimen- 
sion p. 


Fig. 2.4. Représentation dans l’espace des variables. 


Cet espace S(X), appelé image de X (voir annexe B), est engendré par les 
colonnes de X. Il est parfois appelé espace des solutions. Ainsi, tout vecteur w 
de S(X) s'écrit de façon unique sous la forme suivante : 


2 — — 
v = Xi +... +a,X, = Xa. 
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Selon le modèle (2.2), le vecteur Y est la somme d’un élément de S(X) et 
d’un bruit, élément de R”, qui n’a aucune raison d’appartenir à S(X). Minimi- 
ser S(B) revient à chercher un élément de S(X) qui soit le plus proche de Y , au 
sens de la norme euclidienne classique. Par définition, cet unique élément est 
appelé projection orthogonale de Y sur S(X). Il sera noté Ÿ = PxY, où Px 
est la matrice de projection orthogonale sur S(X). Dans la littérature anglo- 
saxonne, cette matrice est souvent notée H et est appelée « hat matrix» car 
elle met des «hat >» sur Ÿ. Par souci de cohérence de l’écriture, nous note- 
rons l'élément courant (i,j) de Px, h;j. L'élément Ÿ de S(X) est aussi noté 
Ÿ = Xb, où B est l’estimateur des MC de 8. L'espace orthogonal à S(X) noté 
S(X){ est souvent appelé espace des résidus. Le vecteur Ÿ = PxY contient 
les valeurs ajustées par le modèle de Y. 


e Calcul de ô par projection : 
Trois possibilités de calcul de B sont proposées. 
— La première consiste à connaître la forme analytique de Px. La matrice 
de projection orthogonale sur S(X) est donnée par : 


Pr = XX AK) EXT 
et, comme PxY = XB, nous obtenons 8 = (X/X) !X'Y. 


— La deuxième méthode utilise le fait que le vecteur Y de IR” se décompose 
de façon unique en une partie sur S(X) et une partie sur S(X)+, cela 
s'écrit : 


Y = PxY +(1- Px)Y. 


La quantité (1— Px)Y étant un élément de S(X)+ est orthogonale à tout 
élément v quelconque de S(X). Rappelons que S(X) est l’espace engendré 
par les colonnes de X, c’est-à-dire que toutes les combinaisons linéaires 
de variables X1,--- , X, sont éléments de S(X) ou encore que, pour tout 
a € R?, nous avons Xa € S(X). Les deux vecteurs v et (1 — Px)Y étant 
orthogonaux, le produit scalaire entre ces deux quantités est nul, soit : 


(v,(I—Px)Y) = 0 Vue SX) 


(Xa,(I— Px)Y) = 0 VaelR? 
X'(I—Px)Y = 0 
X!Y = X'PxY avec PxY = XB 
X'Y = X'XB X de rang plein 
De CN EC 


Nous retrouvons Px = X(X'X) !X’, matrice de projection orthogonale 
sur l’espace engendré par les colonnes de X. Les propriétés caractéris- 
tiques d’un projecteur orthogonal (P4 = Px et P£ = Px) sont vérifiées. 
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— La dernière façon de procéder consiste à écrire que le vecteur (1 — Px)Y 
est orthogonal à chacune des colonnes de X qui engendre S(X) : 


(M1,Y -XÉ) = 0 
SX Ve NX 
(Xp Y —XB) = 0 


Soit Px = X(X/X) !X/ la matrice de projection orthogonale sur S(X), la 
matrice de projection orthogonale sur S(X)+ est Px1 = (1 — Px). 


e Calcul matriciel 
Nous pouvons aussi retrouver le résultat précédent de manière analytique en 
écrivant la fonction à minimiser S(6) : 


S(8) = Y'Y+BX'XB-Y'XB-BX'Y 
Y'Y +BX'XB-2Y'XB. 


Une condition nécessaire d’optimum est que la dérivée première par rapport à 
B s’annule. Or la dérivée s'écrit comme suit : 


05(8) 
08 


= -2X'Y +2X'XB, 


d’où, s’il existe, l’optimum, noté B, vérifie 


_2X'Y +2X'B = 0 
c’est-à-dire = (X/X) 1X'Y. 


Pour s’assurer que ce point £ est bien un minimum strict, il faut que la dérivée 
seconde soit une matrice définie positive. Or la dérivée seconde s’écrit 


0°5(8) 


FETE . 2X'X, 


et X est de plein rang donc X’X est inversible et n’a pas de valeur propre 
nulle. La matrice X’X est donc définie. De plus Vz € R?, nous avons 


z2X'Xz = UXz,X2) =2|X2|? >0 


(X!X) est donc bien définie positive et ff est bien un minimum strict. 
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2.3.2 Interprétation 


Nous venons de voir que Ÿ est la projection de Ÿ sur le sous-espace engendré 
par les colonnes de X. Cette projection existe et est unique même si l'hypothèse 
H1 n’est pas vérifiée. L'hypothèse H{;1 nous permet d'obtenir un ô unique. Dans 
ce cas, s'intéresser aux coordonnées de B a un sens, et ces coordonnées sont les 
coordonnées de Ÿ dans le repère X1,-::, X,. Ce repère n’a aucune raison d’être 
orthogonal et donc B; n’est pas la coordonnée de la projection de Y sur X;. 
Nous avons 


PxY = faiXi+.+ Xp. 


Calculons la projection de Y sur X,;. 


Px,Y = Px,PxY 
= BiPx;Xi+.+ BpPx; Xp 
= B;X; + biPx; Xi. 
iéj 


Cette dernière quantité est différente de B;,x ; sauf si X'; est orthogonal à toutes 
les autres variables. 

Lorsque toutes les variables sont orthogonales deux à deux, il est clair que 
(X'X) est une matrice diagonale 


(XX) = diag(| X1|”,--- ,|lX2|l?). (2:3) 


2.3.3 Quelques propriétés statistiques 


Le statisticien cherche à vérifier que les estimateurs des MC que nous avons 
construits admettent de bonnes propriétés au sens statistique. Dans notre cadre 
de travail, cela peut se résumer en deux parties : l’estimateur des MC est-il sans 
biais et est-il de variance minimale dans sa classe d’estimateurs ? 

Pour cela, nous supposons une seconde hypothèse notée #2 indiquant que 
les erreurs sont centrées, de même variance (homoscédasticité) et non corrélées 
entre elles. L'écriture de cette hypothèse est H2 : E(e) = 0, Ye: = 0? 1,, avec 
Th la matrice identité d’ordre n. Cette hypothèse nous permet de calculer 


E(ô) = E((X'X) !X/Y)= (XX) IX'E(Y)=(X/X) XX = GB. 
L’estimateur des MC est donc sans biais. Calculons sa variance 
V(Ë) = V((X'X) IX! Y)=(X'X) LX V(Y)X(X'X) = 0 (X'X) 1. 


Proposition 2.1 (B sans biais) 
L’estimateur B des MC' est un estimateur sans biais de BG et sa variance vaut 


V(Ë) = o2(X'X)71. 
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Remarque : 
Lorsque les variables sont orthogonales deux à deux, les composantes de 8 ne 
sont pas corrélées entre elles puisque la matrice (X’X) est diagonale (2.3). 


Le théorème de Gauss-Markov (cf. exercice 2.3), nous indique que parmi tous 
les estimateurs linéaires sans biais de G, l’estimateur obtenu par MC admet la 
plus petite variance : 


Théorème 2.2 (Gauss-Markov) 
L’estimateur B des MC' est optimal parmi les estimateurs linéaires sans biais 


de B. 
2.3.4 Résidus et variance résiduelle 


Les résidus sont définis par la relation suivante : 


Ê=Y-Y. 


En nous servant du modèle, Y = X5+E et du fait que XS € S(X), nous avons 
une autre écriture des résidus : 


E = Y-XÜ=Y-X(X'X) LX'Y = (I Px)Y = PyaY = Pre. 


Les résidus appartiennent donc à S(X)+ et cet espace est aussi appelé espace 
des résidus. Les résidus sont donc toujours orthogonaux à Y. 


Nous avons les propriétés suivantes (cf. exercice 2.2). 


Proposition 2.2 (Propriétés de é et Ÿ) 
Sous les hypothèses H1 et H2, nous avons 


E(é) = Py1E(e)=0 
VEN = 0 PA lPh ire Pi 
E(Ÿ) = XE(5)=X8 
V(Ÿ) — o?Px 
Cov(é, Ÿ) 0. 


Conclusion 

Les résidus estimés £ de € possèdent la même espérance que €. En revanche les 
composantes de & sont généralement corrélées (fonction de X). Si nous souhai- 
tons obtenir des résidus estimés ayant des propriétés analogues aux résidus, il 
faudrait que : 

e les éléments non diagonaux de P% soient suffisamment petits ; 

e les éléments diagonaux de Px soient approximativement égaux. 
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Afin d'éliminer la non-homogénéité des variances des résidus estimés, nous 
préférons utiliser les résidus normalisés définis par 


Ei 
OVI- hi 


Comme © est inconnu, il est nécessaire de le remplacer par son estimateur. Les 
résidus, définis comme 


Ti — 


Re El 


sont appelés résidus studentisés. Nous étudierons les résidus plus en détail au 
chapitre 4. 

Nous avons mentionné un estimateur de o? noté 62. Un estimateur « natu- 
rel» de la variance résiduelle est donné par 


Or comme |é||? est un scalaire, nous écrivons que ce scalaire est égal à sa trace 
1 
puis, en nous servant de la propriété de la trace, nous obtenons 


E(|él?) = Eltr(é’4)] = Eltr(éé’)] = t(E[é]) = tr(o?Py1) = o?(n — p). 


La dernière égalité ci-dessus provient du fait que la trace d’un projecteur est 
égale à la dimension du sous-espace sur lequel on projette. Cet estimateur 
«naturel» est biaisé, afin d'obtenir un estimateur sans biais, nous définissons 
donc 

2112 
> _ Hé? _ SCR 


© 


? 


n—p n—p 
où SCR est la somme des carrés résiduelle. 
Proposition 2.3 (6? sans biais) 


La statistique 6? est un estimateur sans biais de o?. 


À partir de cet estimateur de la variance résiduelle, nous obtenons immédiate- 
ment un estimateur de la variance de 5 en remplaçant o? par son estimateur : 


3=6 (XX) = D aus 
n—p 


Nous avons donc un estimateur de l’écart-type de l’estimateur B; de chaque 
coefficient de la régression 8; 


6, = 6 (XX) 55. 
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2.3.5 Prévision 


Un des buts de la régression est de proposer des prévisions pour la variable 
à expliquer y lorsque nous avons de nouvelles valeurs de x. Soit une nouvelle 
valeur 2,13 = (%n+11:°°" ;Zn+1,p), nous voulons prédire y»4+1. Or 


! 
Un+1 — Tn+10 + En+1; 
avec E(en11) = 0, V(enr1) = 0? et Cov(ss1,€;) = 0 pour à = 1,--: ,n. Nous 
pouvons prédire la valeur correspondante grâce au modèle ajusté 
AD Du D 
Un+1 — Tn+11- 


Deux types d’erreurs vont entacher la prévision, la première due à l’incerti- 
tude sur €,+1 et l’autre à l’incertitude due à l’estimation. Calculons la variance 
de l’erreur de prévision 


V (yn+1 = De) 7 V(xzh110 + En+1 — th, 110) = 0°? + 11 V(O)Tort 
= o(1+ Mai X) ny). 


Nous retrouvons bien l'incertitude due aux erreurs o? sur laquelle vient s’ajou- 
ter l’incertitude d’estimation. 

Remarque 

Puisque l’estimateur B est un estimateur non biaisé de 8 et l’espérance de € 
vaut zéro, les espérances de y,+1 et ÿh., sont identiques. La variance de l’erreur 
de prévision s'écrit : 


ne n À 2, 2 
V (uni — 9641) =E [yn+1 9841 Elun1) +E(96,1)] =E(yn+1 — Di). 


Nous voyons donc ici que la variance de l’erreur de prévision est mesurée par 
l'erreur quadratique moyenne de prévision (EQMP). Nous retrouverons cette 
quantité, qui joue un rôle central dans l’évaluation de la qualité des modèles, 
au chapitre 6 (p. 143). 


2.4 Interprétation géométrique 


Le théorème de Pythagore donne directement l'égalité suivante : 
IX YF + IéI? 


IX AP +1Y - XAIË. 


Si la constante fait partie du modèle, alors nous avons toujours par le théorème 
de Pythagore 


Il 


IX - 911? I — g11? + él? 
SC totale — SC expliquée par le modèle + SC résiduelle 
SCT = SCE+SCR. 
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Définition 2.3 (R?) 
Le coefficient de détermination (multiple) R? est défini par 
2 _ YU? 


== = 2 
ET 


et si la constante fait partie de S(X) par 


__ V. expliquée par le modèle I — 3112 


R?2 — — 2 0. 
Variation totale [Y — ÿ1/|P? . 
Le R? peut aussi s’écrire en fonction des résidus (voir l'exercice 3.3) : 
1 NP 
IY — 3117 


Ce coefficient mesure le cosinus carré de l’angle entre les vecteurs Y et Ÿ 
pris à l’origine ou pris en y. Ce dernier est toujours plus grand que le premier, 
le R? calculé lorsque la constante fait partie de S(X) est donc plus petit que 
le R? calculé directement. 


Fig. 2.5. Représentation des variables et interprétation géométrique du R?. 


Ce coefficient ne tient pas compte de la dimension de S(X), un R? ajusté 
est donc défini : 
Définition 2.4 (R? ajusté) 
Le coefficient de détermination ajusté R? est défini par 


n_ él? 
R?=1- 
. n—p|Y|? 
et, si la constante fait partie de S(X), par 
=] 2||2 
ESS 
n—p|Y-5ÿ1| 


L’ajustement correspond à la division des normes au carré par leur degré de 
liberté (ou dimension du sous-espace auquel le vecteur appartient) respectif. 
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2.5 Exemples 


2.5.1 La concentration en ozone 


Nous expliquons l’ozone (03) par deux variables explicatives, la tempéra- 
ture à 12 h (T12) et le vent (Vx). Le vent est mesuré en degré (direction) et 
mêtre par seconde (vitesse). Nous avons synthétisé ces 2 variables en créant 
une variable (Vx) qui est la projection du vent sur l’axe est-ouest. Nous avons 
n = 50 observations. Nous avons choisi 2 variables explicatives afin de pou- 
voir continuer à représenter directement les données et le modèle. Au-delà de 
2 variables explicatives, il est impossible de visualiser simplement les données. 
Nous commençons notre étude, à l’image de la régression simple, en traçant les 
données. 


ozone <- read.table("ozone.txt",header=T,sep=";") 

library("scatterplot3d") 

scatterplot3d(ozonel,"T12"],ozonel[,"Vx"],ozonel,"03"],type="h", 
pch=16,box=FALSE,xlab="T12",ylab="Vx",zlab="03") 


80 100 120 140 


03 


60 


40 


Fig. 2.6. Représentation brute des données : modèle d’explication de l’ozone 
(03) par la température à 12 h (T12) et le vent (Vx). 


maintenant très diffici voir si une regression es < ui si- 
Il est maintenant très difficile de voir s e regression est adaptée, ce S 
gnifie ici que les points ne doivent pas être très éloignés d’un plan commun. 


e Les phases d’estimation puis de synthèse des résultats obtenus sont conduites 
avec les ordres suivants : 


regmulti <- 1m(03"T12+Vx,data=ozone) 
summary (regmulti) 


Rappelons que, classiquement, le statisticien inclut toujours une moyenne gé- 
nérale (ou intercept). Les logiciels de statistiques ne font pas exception à 
cette règle et ils intègrent automatiquement la moyenne générale, c’est-à-dire 
la variable X1 composée uniquement de 1. Le modèle de régression est donc 


03 —= Bi + B2T12 + BaVx + E 
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Le résumé permet de connaître les estimations des paramètres et de leur 
écart-type. Il donne aussi la qualité d'ajustement via le R?, qui est ici moyenne 
(R?= 052) 


Call: 
im(formula = 03 ” Ti2 + Vx, data = ozone) 


Residuals: 
Min 1Q Median 3Q Max 
-42.984 -10.152 -2.407 11.710 34.494 


Coefficients: 

Estimate Std. Error t value Pr(>|t|l) 
(Intercept) 35.4530 10.7446 3.300 0.00185 *x* 
T12 2.5380 0.5151 4.927 1.08e-05 *x*%* 
Vx 0.8736 0.1772 4.931 1.06e-05 *x*%* 


Signif. codes: O0 ?**%*? 0.001 ?*x*? 0.01 ?x*x? 0.05 ?.? 0.1 ” ? 1 


Residual standard error: 16.82 on 47 degrees of freedom 
Multiple R-Squared: 0.5249, Adjusted R-squared: 0.5047 
F-statistic: 25.96 on 2 and 47 DF, p-value: 2.541e-08 


L’estimation de 6 vaut ici 16.82 et nous avons n = 50 pour p = 3 variables, ce 
qui donne n — p — 47 (degrés de liberté). Un résumé numérique des résidus est 
donné par le minimum, le maximum et les 3 quartiles. 

Enfin, à l’issue de cette phase d’estimation, nous pouvons tracer notre mo- 
dèle, le plan d’équation 2 = 35.453 + 2.538x + 0.8736y. 


03 


40 60 80 100 120 140 


Fig. 2.7. Représentation des données et hyperplan. 


Il est difficile d’avoir une idée de la qualité d'ajustement du modèle via une 
figure en 3 dimensions. En général la qualité d’un modèle sera envisagée par 
les résidus (chapitre 4). 
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Nous avons ajouté la variable Vx au modèle présenté dans le chapitre 1, 
cet ajout est-il pertinent ? Afin de répondre correctement à cette question nous 
devons envisager de construire soit des procédures générales de choix de modèles 
(voir chapitre 6, p. 143), soit un test entre le modèle de la régression simple 
03 = 1 + B2T12 + € et le modèle plus complexe 03 = 61 + B2T12 + B3Vx + €, 
ce qui est un des objets du prochain chapitre. 


2.5.2 La hauteur des eucalyptus 


Nous cherchons à expliquer la hauteur de n — 1429 eucalyptus par leur 
circonférence. Nous avions mentionné dans le chapitre de la régression simple 
1.7.2 p. 28 qu’un modèle du type 


ht — fi +fHicirc+fiVcirc+e, 


serait peut-être plus adapté. 


n = Fistii stitiet . 
à +istattille Hiitil 
LL 
# 8 lit : SR 

+ ,attfi +T 
SENS 

Le + 

+ 

30 40 50 60 70 


cire 


Fig. 2.8. Représentation des mesures pour les n = 1429 eucalyptus mesurés. 


e Le graphique des données est identique, puisque nous n’avons qu’une seule 
variable la circonférence (circ). 


e La phase d'estimation et la phase de résumé des estimations donnent les 
résultats ci-dessous. Notez l'opérateur I() qui permet de protéger! l'opération 
« racine carrée ». Bien qu’il ne soit pas obligatoire dans ce cas, il est préférable 
de s’habituer à son emploi. 


regmult <- Im(ht”circ+l(sqrt(circ)),data=eucalypt) 
resume.mult <- summary(regmult) 

resume.mult 

Call: 


INoter que le «+» qui sépare les deux variables dans la formule ht”circ+I(sqrt(circ)) 
ne signifie pas que l’on additionne les 2 variables circ et Vcirc. Les opérateurs classiques 
(+, *, 7) que l’on veut utiliser dans les formules doivent être protégés. Ici l'opérateur V7 est 
protégé par I(). 
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Im(formula = ht ” circ + I(sqrt(circ)), data = eucalypt) 
Residuals: 

Min 1Q 
-4.18811 -0.68811 


Median 3Q Max 
0.04272 0.79272 3.74814 


Coefficients: 

Estimate Std. Error t value Pr(>l|t|) 
(Intercept) -24.35200 2.61444 -9.314 <2e-16 **x% 
circ -0.48295 0.057933 -8.336 <2e-16 **%*% 
I(sgrt(circ)) 9.98689 0.78033 12.798 <2e-16 *%x% 


Signif. codes: O ?**%*? 0.001 ?**? 0.01 ?*x? 0.05 ?.? 0.1 ?” ? 1 
Residual standard error: 1.136 on 1426 degrees of freedom 
Multiple R-Squared: 0.7922, Adjusted R-squared: 0.7919 


F-statistic: 2718 on 2 and 1426 DF, p-value: < 2.2e-16 


L’estimation des 3 coefficients est donnée dans la première colonne, suivie de 
leur écart-type estimé et du test de nullité du coefficient (voir prochain cha- 
pitre). L’estimation de o& donne ici 1.136, avec n — p — 1426. Le R? augmente 
avec ce nouveau modèle et passe de de 0.768 à 0.792. Cela signifie que le modèle 
ajuste mieux les données avec une variable supplémentaire (Ycirc). Ce phé- 
nomène est normal puisque l’on à projeté sur un sous-espace S(X) plus grand 
(on a ajouté une variable), la projection Ÿ = PxY est plus proche de Ÿ avec 
le grand modèle et donc le R? est meilleur (voir 6.4 p. 157). Le R? n’est donc 
pas adapté pour juger de la pertinence de l’ajout de variables. 


e La qualité d'ajustement peut être envisagée graphiquement grâce aux ordres 
suivants : 


plot(ht”circ,data=eucalypt,pch="+",col="grey60") 


ht 
À 
\ 


15 


30 40 50 60 70 
circ 


Fig. 2.9. Représentation des données et du modèle ajusté. 
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Nous pouvons constater que le modèle semble très bien ajusté pour la plu- 
part des valeurs de circonférence, sauf pour les grandes valeurs (cire > 65 cm) 
où l’ajustement est toujours plus faible que la valeur mesurée. Ce modèle est 
donc adéquat pour des valeurs jusqu’à 60-65 cm de circonférence mais inadapté 
au-delà. 


2.6 Exercices 


Exercice 2.1 (Questions de cours) 


1. 


Nous avons effectué une régression multiple, une des variables explicatives 
est la constante, la somme des résidus calculés vaut : 

A. 0: 

B. approximativement 0; 

C. parfois 0. 


Le vecteur Ÿ est-il orthogonal au vecteur des résidus estimés € ? 
A. Oui; 

B. Non; 

C. Seulement si 1 fait partie des variables explicatives. 


Un estimateur de la variance de B de l’estimateur des MC de f vaut : 
Un 00 0 Due 

B. 8 (XX) 

(OR ni à di QU 

Un autre estimateur que celui des moindres carrés (moindres valeurs ab- 
solues par exemple ou d’autres encore) a été calculé. La SCR obtenue 
avec cet estimateur est : 

À. plus petite que la SCR obtenue avec l’estimateur des MC classique ; 
B. plus grande que la SCR obtenue avec l’estimateur des MC classique ; 
C. aucun rapport. 


Une régression a été effectuée et le calcul de la SCR a donné la valeur 
notée SCRI1I. Une variable est rajoutée, le calcul de la SCR a donné une 
nouvelle valeur notée SCR2. Nous savons que : 

A. SCRI < SCR2; 

B. SCRI > SCR2; 

C. cela dépend de la variable rajoutée. 


Une régression a été effectuée et un estimateur de la variance résiduelle 
a donné la valeur notée 6? . Une variable est rajoutée et un estimateur 
de la variance résiduelle vaut maintenant 63. Nous savons que : 

A.:01 Sos: 

B, 47 >6%;: 

C. on ne peut rien dire. 


Exercice 2.2 (Covariance de é et de Ÿ) 
Montrer que Cov(é, Y) = 0. 
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Exercice 2.3 ({ Théorème de Gauss-Markov) 
Démontrer le théorème de Gauss-Markov. 


Exercice 2.4 (Représentation des variables) 
Nous avons une variable Y à expliquer par une variable X. Nous avons effectué 
n = 2 mesures et trouvé 


(1, y1) un (4, 5) et (2, ya) . (5): 


Représenter les variables, estimer 5 dans le modèle y; = Gx; + €; représenter 
ensuite Ÿ. 

Nous avons maintenant une variable Y à expliquer grâce à 2 variables X et Z, 
nous avons effectué n = 3 mesures 


(t1, 1, y1) . (3,2,0), (to, 22, y2) — (3,3,5) et (xs, 23,y3) cn (0,0,3). 


Représenter les variables, estimer 8 dans le modèle y; — x; + 2; +e; et 
représenter ensuite Ÿ. 


Exercice 2.5 (Modèles emboîtés) 

Soit X une matrice de taille n x p composée de p vecteurs indépendants de R”. 
Nous notons X, la matrice composée des q (q < p) premiers vecteurs de X. 
Nous avons les deux modèles suivants : 


Y = XB+E 
Y = X,y+e. 


Comparer les R? dans les deux modèles. 


Exercice 2.6 

On examine l’évolution d’une variable Y en fonction de deux variables exogènes 
x et z. On dispose de n observations de ces variables. On note X = (1 x z) où 
1 est le vecteur constant et x, z sont les vecteurs des variables explicatives. 


1. Nous avons obtenu les résultats suivants : 


30 0 0 
ee ? 10 7 
? 7? 15 


Donner les valeurs manquantes. 
Que vaut n ? 


Calculer le coefficient de corrélation linéaire empirique entre x et z. 


© 
HT — 


égression linéaire empirique de Y sur 1,x,z donne 


Y=-21+x+22+6  SCR=/|é|* = 12. 
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(a) Déterminer la moyenne arithmétique Ÿ. 


(b) Calculer la somme des carrés expliquée (SCE), la somme des carrés 
totale (SCT) et le coefficient de détermination. 


Exercice 2.7 (Régression orthogonale) 
Nous considérons le modèle de régression linéaire 


Y =XB+E, 


où Ÿ € IR”, X est une matrice de taille n x p composée de p vecteurs orthogo- 
naux, 5 € IP et & € IR”. Considérons U la matrice des q premières colonnes 
de X et V la matrice des p — q dernières colonnes de X. Nous avons obtenu 
par les MC les estimations suivantes : 


Ve — Bai +... +6Xx 
Yu = ait... + Oz, 
Ÿv — Pitt SR Ps 


Notons également SCE(A) la norme au carré de P4Y. 
1. Montrer que la SCE(X) = SCE(U) + SCE(V). 
2. Choisir une variable nommée x7, montrer que l’estimation de fr est iden- 


tique quel que soit le modèle utilisé. 


Exercice 2.8 (ff Moindres carrés contraints) 
Nous considérons le modèle de régression 


Y = XB+E. 


Nous définissons l’estimateur des MC classique et l’estimateur contraint par 


B = argmin(Y - X4|? 
Be = argmin|Y —-XfS|? sc RB=7r, 
où R est une matrice de taille q x p de rang q < p et r un vecteur de IR£. 


1. Calculer l’estimateur des moindres carrés. 


2. Vérifier que l’estimateur des moindres carrés contraints vaut 


Be = B+(X'X) TR'IR(X'X) 1R] l(r — RG). 


Chapitre 3 


Inférence dans le modèle 
gaussien 


Nous rappelons le contexte du chapitre précédent : 
Ynx1 = Xnxp Bpx1 + Enx1; 


sous les hypothèses 

— Hi :rang(X) = p. 

A H:2 : E(e) = 0, 5 = 0? 1}. 

Nous allons désormais supposer que les erreurs suivent une loi normale et donc 
H2 devient 

— H3:er N(0,0?1;). 

Nous pouvons remarquer que H3 contient H{2. De plus, dans le cas gaussien, 
Cov(éi,e;) — o?6;; implique que les €; sont indépendants. L'hypothèse H3 
s'écrit €1,:-: ,en sont i.i.d. et de loi W(0, a?). 

L'hypothèse gaussienne va nous permettre de calculer la vraisemblance et 
donc les estimateurs du maximum de vraisemblance (EMV). Cette hypothèse 
va nous permettre également de calculer des régions de confiance et de proposer 
des tests. C’est l’objectif de ce chapitre. 


3.1 Estimateurs du maximum de vraisemblance 


Calculons la vraisemblance de l'échantillon. La vraisemblance est la densité 
de l’échantillon vue comme fonction des paramètres. Grâce à l’indépendance 
des erreurs, les observations sont indépendantes et la vraisemblance s’écrit : 


n 1 n/2 | Ne p 
L(Y,6,0°) = [ru - (5) ep|- 5 Du) Bi)" 
i=1 i=1 j=1 
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Nous avons donc 


me 1 
LE) (>) EXP plu - XIE ; 


ce qui donne 


2 n 2. n 1 2 
log L(Y,B,0*) = 3 l080 5 10827 = XB|f. 
Nous obtenons 
OL(Y, 8,0? 1 à 
OR ra (AB). (1) 
OL(Y, 8,0? n 1 
oi RE 5 + al — XBU2. (3.2) 


À partir de (3.1), nous avons évidemment Buv = B et à partir de (3.2) nous 
avons 


2 [IX -X£mvl? 
OMV — 
n 
et donc que 6%; = (n — p)ô?/n. L’estimateur du MV est donc biaisé par 


opposition à 6? l’estimateur obtenu par les MC. Afin de vérifier que nous avons 
bien un maximum, il faut étudier les dérivées secondes (à faire en exercice). 
Sous l’hypothèse supplémentaire H3, les propriétés établies au chapitre 2 sont 
toujours valides (sans biais, variance minimale). Nous pouvons toutefois établir 
de nouvelles propriétés. 


3.2 Nouvelles propriétés statistiques 


Grâce à l'hypothèse gaussienne, nous pouvons « améliorer » le théorème de 
Gauss-Markov. L'optimalité des estimateurs est élargie et nous ne considérons 
non plus les estimateurs linéaires sans biais, mais la classe plus grande des 
estimateurs sans biais. De plus, le théorème intègre désormais l’estimateur de 
a?. La preuve de ce théorème est à faire en exercice (voir exercice 3.7). 


Proposition 3.1 : 
(8,6?) est une statistique complète et (B,6?) est de variance minimum dans la 
classe des estimateurs sans biais. 


Nous pouvons ensuite établir une proposition importante pour la construction 
des tests et régions de confiance. 


Proposition 3.2 (Lois des estimateurs : variance connue) 

Sous les hypothèses H1 et Ha, nous avons 

i) B est un vecteur gaussien de moyenne B et de variance a AXE 
ü) (n—p)ô?/o? suit un x? à n —p ddl (x5_,), 


iii) B et &? sont indépendants. 
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Preuve 
i) B est fonction linéaire de variables gaussiennes et suit donc une loi normale. 
Cette loi est entièrement caractérisée par son espérance et sa variance calculées 
au chapitre précédent. 
ii) 

a IV -X8 | 

np 

Or e = N(0,0?1) et Px1 est la matrice de projection orthogonale sur S(X)+, 
espace de dimension n—p. Nous obtenons le résultat par le théorème de Cochran 
(théorème B.1 p. 286). 
ii) Remarquons que f est fonction de PxY (8 = (X'X)-1X'PxY) et 6? est 
fonction de (1— Px)Y. Les vecteurs gaussiens Ÿ et é sont de covariance nulle et 
sont donc indépendants. Toute fonction fixe de Ÿ reste indépendante de toute 
fonction fixe de é, d’où le résultat. 


All |? = ——IPxL el? = ePxre. 


Il en découle une proposition plus générale pour bâtir les régions de confiance. 


Proposition 3.3 (Lois des estimateurs : variance estimée) 
Sous les hypothèses H1 et H3, nous avons 
Bj — b; 


i) pour i = 1,.-. D; D nenoe UP 
JJ 


ü) Soit R une matrice de taille q X p de rang q (q < p) alors la v.a. 


1 à “LR 
Preuve 
i) la variance de l’estimateur b; vaut o?[X'X];! jj > nOUS avons alors 


_ er ©. N(0,1). 
VIAX) T5 

o? est inconnue et estimée par 6°. La suite découle de l’utilisation des points 

(üi) et (iii) de la proposition précédente. 

üi) Le rang de R vaut par hypothèse qg < p, donc le rang de R(X'X)R' vaut 

q. RG est un vecteur gaussien de moyenne RG et de variance o2R(X'/X)-!R!. 

Nous avons donc 


(RB- RBY [RAY IRT  (RÊ- R6) » x. 3) 


Or o? est inconnue. Afin de faire disparaitre o? de l'équation (3.3), nous divisons 
le membre de gauche par 6?/o?. Rappelons que par (ii) nous savons que 6?/o? 
suit un y? divisé par son degré de liberté et que par (iii) 6?/ao? est indépendant 
du membre de gauche de l'équation (3.3). La suite découle donc de la définition 
d’une loi de Fisher (rapport de deux x? indépendants divisés par leurs degrés 
de liberté respectifs). 
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3.3 Intervalles et régions de confiance 


Les logiciels et certains ouvrages donnent des IC pour les paramètres pris 
séparément. Cependant ces IC ne tiennent pas compte de la dépendance des es- 
timations. Il est possible d'obtenir des IC simultanés pour plusieurs paramètres. 
Le théorème ci-dessous détaille toutes les formes d’IC : simple ou simultané. 
C’est le théorème central de l’estimation par intervalle dont la démonstration 
est à faire à titre d'exercice (voir exercice 3.2). 


Théorème 3.1 (IC et RC des paramètres) 
i) Un IC, de niveau 1 — à, pour un B; pour j = 1,--- ,p est donné par 


12 —tn-(i — 7236 leo B; +ta (1 a/2)6 ar] 


ii) Un IC, de niveau 1 — à, pour o? est donné par 


= 52 == s2 
Ê p)& : (n p)6 | où P(c < es < C2) — 1 — @. 
C2 C1 


iii) Une RC pour q (q < p) paramètres B; notés (B,,,--- ,6;,) de niveau 1 — a 
est donnée, 
- lorsque a est connue, par 


1 
© 


RC, (R8) = {ns ER, L{R(Ë- BJIRCA'X) RIT UR( - 8) < x - a)} 
- lorsque a est inconnue, par 


RCA(RB) = {RBE R*, 
= LRO — BIRCX'AY IRT RG - 8) < fyn-pll—0)}, (84) 


6? 


où R est la matrice de taille q x p dont tous les éléments sont nuls sauf les [R];;; 
qui valent 1. Les valeurs c\ et c> sont les fractiles d’un x? et Pan) est 
le fractile de niveau (1 — a) d’une loi de Fisher admettant (q,n — p) ddl. 


Exemple : différence entre intervalles et régions de confiance 
Nous souhaitons donner une RC pour f1 et B2, la matrice R est donnée par 


2 RON 0 > mn | n-8B 
r= | 1 0 0: | Fe p=|56 | 
Nous avons alors pour (f1,/B2) la RC suivante : 


RC (Bed) = {a Aire -BARCL ANRT | : .. . | < fn-var} : 
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Notons c;; le terme général de (X’X)-!, nous obtenons en développant 


RCa(B1, B2) = {(.@) R?, : x 


262 (C11C22 Eu Co) 


(c22(8 — Bi}? — 2c12(P1 — B1)(Be — Ba) + cn (O2 — B)°) < fem-na/2 } : 


Cette région de confiance est une ellipse qui tient compte de la corrélation entre 
Bi et B;, contrairement à la juxtaposition de deux intervalles de confiance qui 
forme un rectangle. 


gl 
sl 
AN © - 
te 
ON | 
( 
T | 
[ 
mn En 0 2 4 
Bi 


Fig. 3.1. Comparaison entre ellipse et rectangle de confiance. 


Si les composantes ne sont pas fortement corrélées alors les régions parallélé- 
pipédiques définies par les IC sont une bonne approximation de l’ellipsoïde. 


3.4 Exemple 


Nous traitons les 50 données journalières concernant la concentration en 
ozone. La variable à expliquer est la concentration en ozone notée 03 et les 
variables explicatives sont la température notée T12, le vent noté Vx et la né- 
bulosité notée Ne12. 

Comme toujours, nous avons les phases d’estimation et de résumé données 
par les commandes ci-dessous. Pour estimer les intervalles de confiance à 95 % 
pour les paramètres, il suffit d'utiliser le théorème 3.1. 


modele3 <- 1lm(037T12+Vx+Ne12,data=ozone) 

resume3 <- summary (modele3) 

coef3 <- coef (resume3) 

IC3 <- rbind(coef3[,1]-coef3[,2]x*xqt(0.95,modele3$df.res), 
coef3l[,1]+coef3[,2]x*xqt(0.95,modele3$df.res)) 

IC3 


(Intercept) T12 Vx Ne12 
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[1,] 61.70626 0.4800631 0.2051867 -6.617350 
[2,] 107.38840 2.1500287 0.7677045 -3.169395 


où la fonction qt (a, dd1) calcule la valeur du fractile d’une loi de Student (qt) 
de niveau a et de degré de liberté donné par ddl (ici option df). 


Afin de dessiner les ellipses de confiance, nous utilisons le «package» ellipse: 


library(ellipse) 


Nous allons dessiner les régions de confiance de tous les couples de paramètres 
et les comparer graphiquement aux intervalles de confiance pour chaque pa- 
ramèêtre pris indépendamment (ellipse versus rectangle). Nous choisissons un 
intervalle de confiance à 95 % pour chaque paramètre et une région de confiance 
à 95 %. Nous obtenons le dessin des ellipses de confiance pour tous les couples 
de paramètres 


Ba 
0.2 0.4 0.6 0.8 


B2 
0.0 0.5 1.0 1.5 2.0 2.5 


Ba 


7 -6 -5 4 -3 


B3 
0.2 0.4 0.6 0.8 
| 


50 60 70 80. 90 100 110 120 00 05 10 , 15 20 25 


5 2.0 2.5 0.2 0 


00 05 10 . 1 re 
Bo B3 


Fig. 3.2. Régions de confiance et rectangle des couples de paramètres. 


grâce aux commandes suivantes : 


par(mfrow=c(3,2)) 
for(i in 1:3){ 
for(j in (i+1):4){ 
plot(ellipse(modele3,c(i,j),level=-0.95) ,type="1", 
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xlab=paste("beta",i,sep="") ,ylab-paste("beta",j,sep="")) 
points(coef (modele) [il], coef (modele) [j] ,pch=3) 
lines(c(IC3[1,i],1C3[1,i]1,1C312,i]1,1C812,i]1,1C3[1,il), 
c(Ic3l1,i1,1C8(2,j1,1C8[2,j],1C8[1,j],1C3[1,j1),1ty=2) 
3} 


Afin d'observer la corrélation entre les paramètres, nous pouvons regarder 
l'orientation du grand axe de l’ellipse. Si cet axe n’est pas parallèle aux axes 
du repère, il y a corrélation. Ainsi nous observons que Bi et Bo sont fortement 
corrélés. Il en est de même avec (Ba, Bs) et (B, Bs). Enfin rappelons que nous 
pouvons calculer un IC à 95 % pour 6? avec les commandes suivantes : 


c(resume3$sigma”2*modele3$df.res/qchisq(0.975,modele3$df.res), 
resume3$sigma”2*modele3$df .res/qchisq(0.025,modele3$df.res)) 
[1] 135.7949 310.2253 


3.5 Prévision 


Soit 2,41 = (Æn+1,1; °°" ; Tn+1,p) une nouvelle valeur et nous voulons prédire 
Yn+1. Le modèle indique que 
Un+1 — CARTE) + En+1; 
avec les €; i.i.d. et qui suivent une W(0, 2). À partir des n observations, nous 
avons estimé f et nous prévoyons Yn+1 par 
Pat = Dh i10e 
Nous calculons facilement l’espérance et la variance de l’erreur de prévision 
Era — Yn+1 — Da : 
E(yn+1 — ÿn+1) 0 
VS — Yn+1) V(xh31(8 — 8) +Eny1) 
à 2 
zh41 V(B — Btn41 +0 
oc [ch (XX) ani +1]. 


Il 


Nous obtenons la proposition suivante. 


Proposition 3.4 (IC de prévision) 
Un IC, de niveau (1 — a), pour yn+1 est donné par 


ER ne bare en A OU) M +1. 


Preuve 

6 suit une loi normale et x,,,1 est fixe donc ÿ},, suit une loi normale. La valeur 
aléatoire yn+1 à prévoir suit une loi normale W(x/,,,8, a?) et est indépendante 
des y1,--: ,Yn par l'hypothèse Ha. 
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; : dé FDL, 2. À à 
Nous avons donc que +1 est indépendant de ÿ,,, = 1,11 car B est une 
. LE , PRE AD 7e 
fonction linéaire des y1,:-: ,yn. L'erreur de prévision yn+1—#,4, suit donc une 
loi normale dont les moyenne et variance ont été calculées. Nous avons donc 


Du — Yn+1 
N = i - = N(0,1). 
Th CA X) tn +1 Ge 


Or © est inconnue et estimée par 6. Nous utilisons la définition d’un Student : 
si N suit une loi normale centrée réduite, si D suit un x? à d ddlet si N et D 
sont indépendants, alors le rapport N/,/D/d suit un Student à d ddl. 

La proposition 3.3 p. 55 indique que D = &?(n — p)/a? suit un x? à (n —p) 
degrés de liberté et que D est indépendant de ê. Or 6? dépend uniquement 
des y1,--- ,y et est donc indépendant de y,+1. Il en va de même pour D. Le 
caractère aléatoire de N provient de B et de yn+1, nous en déduisons que N et 
D sont indépendants d’où 


N _ Brut — Yn+1 : 
V2 GRR) ee +1 
d 


T{n = p), (3.5) 
l'intervalle de confiance découle de ce résultat. 


3.6 Les tests d’hypothèses 


3.6.1 Introduction 


Reprenons l'exemple de la prévision des pics d’ozone. Nous avons modélisé 
les pics d’ozone par T12, Vx et Ne12. Il paraît raisonnable de se poser les ques- 
tions suivantes : 

(a) est-ce que la valeur de 03 est influencée par Vx ? 
(b) y a-t-il un effet nébulosité ? 
(c) est-ce que la valeur de 03 est influencée par Vx et T12? 


Rappelons que le modèle utilisé est le suivant : 
03 = Gi + H2T12 + B3Vx + BaNel2 + €. 


Nous pouvons expliciter les trois questions précédentes en terme de test d’hy- 
pothèse : 

(a) correspond à Ho : B3 = 0, contre H1 : 3 £ 0; 

(b) correspond à H : 4 = 0, contre Hi : 41 # 0; 

(c) correspond à Ho : Bo = B3 = 0, contre H: : 2 Z 0 ou B3 £ 0. 


Remarquons que les cas (a), (b) et (c) reviennent à tester la nullité d’un ou 
plusieurs paramètres en même temps. Dans ce dernier cas on parle de nullité 


Inférence dans le modèle gaussien 


61 


simultanée des coefficients. Cela veut donc dire que sous l’hypothèse H, certains 
coefficients sont nuls et donc les variables correspondant à ces coefficients ne 
sont pas utiles. Ce cas de figure correspond par définition à comparer deux 
modèles emboîtés l’un dans l’autre (l’un est un cas particulier de l’autre). 

Le plan d’expérience privé de ces variables sera noté X9 et les colonnes de 
X9 engendreront un sous-espace noté S(X,). Afin d’alléger les notations, nous 
noterons S(X0) = So et SX) = x. Le niveau des tests sera fixé de façon 
classique à @. 


3.6.2 Test entre modèles emboîtés 


Rappelons tout d’abord le modèle et les hypothèses utilisées : 
Y=XB+e où er NW(0,0?1), 


cela veut dire que E(Y) € Sx espace engendré par les colonnes de X. 

Pour faciliter les notations, supposons que nous souhaitons tester la nullité 
simultanée des q derniers coefficients du modèle avec q < p. Le problème s’écrit 
alors de la façon suivante : 


Ho: Bp-g+1 =": = By —=0 contre Hi: 33E{p—-q+1,...,p}:86; #0. 
Que signifie Ho : Bp-g+1 = ::: = PB) — 0 en terme de modèle? Si les q derniers 
coefficients sont nuls, le modèle devient 


Y = Xoo +Eo où € = N(0, o?T), 


où la matrice X9 est composée des p — q premières colonnes de X. Les colonnes 
de X, engendrent un espace noté S, de dimension po = p — q. Ce sous-espace 
est bien évidemment inclus dans $ x. Sous l'hypothèse nulle H, l'espérance de 
Y appartiendra à ce sous-espace. 

Une fois que les hypothèses du test sont fixées, il faut proposer une sta- 
tistique de test. Nous allons voir une approche géométrique assez intuitive. 
Une approche plus analytique basée sur les tests de rapport de vraisemblance 
maximum est à faire en exercice (cf. exercice 3.6). 


Approche géométrique 


Considérons le sous-espace noté So. Nous avons écrit que sous Ho : E(Y) € 
So. Dans ce cas, la méthode des moindres carrés consiste à projeter Y non plus 
sur Sx (et obtenir Ÿ) mais à projeter Y sur So et obtenir Yo. Visualisons ces 
différentes projections sur le graphique suivant : 
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Fig. 3.3. Représentation des projections. 


L'idée intuitive du test, et donc du choix de conserver H, ou de rejeter H, 
est la suivante : si la projection de Y dans S, notée Ÿ, est «proche» de la pro- 
jection de Y dans Sx, notée Ÿ, alors il semble logique de conserver l’hypothèse 
nulle. En effet, si l'information apportée par les deux modèles est la « même », 
il vaut mieux conserver le modèle le plus petit (principe de parcimonie). Il faut 
évidemment quantifier le terme « proche ». De manière naturelle, nous pou- 
vons utiliser la distance euclidienne entre Ÿÿ et Ÿ, ou son carré, | Yo — Ÿ|[?. 
Cependant cette distance sera variable selon les données et selon les unités de 
mesures utilisées. Pour s’affranchir de ce problème d’échelle nous allons « stan- 
dardiser » cette distance en la divisant par la norme au carré de l’erreur é. Les 
quantités é et re n’appartiennent pas à des espaces de même dimension, 
nous divisons donc chaque terme par son degré de liberté respectif. Nous avons 
donc la statistique de test suivante : 


12/9 Lo Ÿ12/@—p0) 
W-ŸP/R-D) IF -ŸIP/R-n) 


Pour utiliser cette statistique de test, il faut connaître sa loi au moins sous Ho. 
Remarquons que cette statistique est le rapport de deux normes au carré. Nous 
allons donc déterminer la loi du numérateur, du dénominateur et constater leur 
indépendance. Nous savons que 


Ÿo — Ÿ = PasY — Pas Ÿ, 
or So C Sx donc 
-Ÿ = PooPoxY — PoxY = (ln Po) PoxY = Pos Par. 


Nous en déduisons que (Po—Ÿ) € SÉNS x et donc que (Ÿÿ—Ÿ) L (Y —Ÿ) car 
Y-Y=(Mm-Po;)Y = PuYEe S+. La figure (3.3) permet de visualiser ces 
notions d’orthogonalité. Les vecteurs aléatoires Y — Y et Y — Y sont éléments 
d’espaces orthogonaux, ils ont donc une covariance nulle. Ces deux vecteurs 
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sont des vecteurs gaussiens, ils sont donc indépendants et toute fonction fixe 
de ceux-ci reste indépendante, en particulier les normes du numérateur et du 
dénominateur sont indépendantes. 

En utilisant l'hypothèse H{3 de normalité et en appliquant le théorème de 
Cochran géométrique (théorème B.1 p. 286), nous en déduisons que ces deux 
normes suivent des lois du x? 


1 
lPaYIE + x 


1 1 
lPonaYIE ee x (lFoune XANE) 


: ; | 2-2 mie 
où le paramètre de décentrage | Pis, X 8/0 est nul sous Ho puisque dans 
ce cas XP € So. Nous pouvons conclure avec le théorème suivant. 


Théorème 3.2 (Test entre modèles emboîtés) 

Soit un modèle de régression à p variables Y = XB +E satisfaisant H1 et H3. 
Nous souhaitons tester la validité d’un sous-modèle {ou modèle emboîté) où un 
ou plusieurs coefficients sont nuls. Le plan d'expérience privé de ces variables 
sera noté X5o, les po colonnes de X4 engendreront un sous-espace noté S et le 
sous-modèle sera Ÿ = Xof0o + €o. Notons l'hypothèse nulle (modèle restreint) 
Ho : E(Y) € So et l'hypothèse alternative (modèle complet) H1 : E(Y) € S(X). 
Pour tester ces deux hypothèses, nous utilisons la statistique de test F ci- 
dessous qui possède comme loi sous Ho : 


IP Ÿ12/ = po) | 
= ŸIP/n —») 


P—pPo;n—p) 


et sous H1 la loi reste une loi de Fisher mais décentrée de lPstns, X81?/07. 
Notons aussi une écriture équivalente souvent utilisée et donc importante 
n —p SCRo —SCR 


F = HF pon-7: 
P — Po SCR P—po;n—p 


L'hypothèse Ho sera repoussée en faveur de H1 si l’observation de la statistique 
F est supérieure à fp_pon-p(1 — @), la valeur à étant la probabilité de rejeter 
à tort Ho ou erreur de première espèce. 


Preuve 

La démonstration de la statistique de test F découle de la construction qui 
précède le théorème. En se rappelant que si N + x? à n ddlet D = y? à d ddl 
et si N et D sont indépendants alors 


N d 

Da A 
On peut voir facilement la dernière égalité non démontrée en utilisant la fig. (3.3) 
et en appliquant le théorème de Pythagore, ou bien de manière plus analytique 
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en s’occupant uniquement du numérateur || Yo — Y||? : 


Il 


IS = 17 Fax Y + PaxŸ — PaoY | 
(Pau Y + (M — Pas) Pas YIP 
I Pau VIP + IPogoox IP 


IV YU? +12 — ol. 


Il 


Il 


Cette approche géométrique semble déconnectée des tests statistiques clas- 
siques mais il n’en est rien. Nous pouvons montrer (cf. exercice 3.6) que le test 
Fest tout simplement le test de rapport de vraisemblance maximale. 


Test de Student de signification d’un coefficient B; 


Nous voulons tester Ho : B; = 0 contre H1 : B; Æ 0 (test bilatéral de 
signification de G;). 
Selon le théorème 3.2, la statistique de test est 


= WI? 
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F — 


Nous rejetons Ho si l'observation de la statistique F, notée F(w), est telle que 
F(w) > fin-p(l-a). 


La statistique de test est un Fisher à 1 et (n — p) ddl. 

Ce test est équivalent au test de « Student » à (n — p) ddl qui permet de 
tester Ho : G; = 0 contre Hi : 6; # 0 (test bilatéral de signification de f;) avec 
la statistique de test 


qui suit sous Hy une loi de Student à (n — p) ddl. Nous rejetons H, si l’obser- 
vation de la statistique T', notée T(w), est telle que 


TG) > tn-p(1- a/2). 
C’est sous cette forme (cf. exercice 3.5) que ce test figure dans tous les 
logiciels de régression linéaire. 
Test de Fisher global 


Si des connaissances a priori du phénomène étudié assurent l’existence d’un 
terme constant dans la régression, alors pour tester l'influence des régresseurs 
non constants sur la réponse, nous testerons l’appartenance de E(Y) = u à la 
diagonale So(X) = À de R”. Nous testerons ainsi la validité globale du modèle, 
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c’est-à-dire que tous les coefficients sont supposés nuls, excepté la constante. 
Ce test est appelé test de Fisher global. Dans ce cas, Y5 = ÿ1 et nous avons la 
statistique de test suivante : 

IPsxY — PYI}/@- 1) | IPsxY -Y1]?/p-1) 


IV — PsxYl?/(n-p)  [Y-Ps,Y|?/(n-p) 


TV Fp-in-p. 


Si nous écrivons la statistique de test en utilisant le R?, nous obtenons le rapport 


R? n—-p 


EF = ——— —- 
1—-R2p-—-1 


Ce test est appelé par certains logiciels statistiques le test du R?. 


3.7 Exemples 


3.7.1 La concentration en ozone 


Nous reprenons les données de l’ozone traitées précédemment dans ce cha- 
pitre et obtenons avec les commandes suivantes : 


modele3 <- 1lm(037"T12+Vx+Ne12,data=ozone) 
resume3 <- summary (modele3) 
resume3 


le tableau de résultats : 


Call: 
im(formula = 03 * T12 + Vx + Ne12, data = ozone) 


Residuals: 
Min 1Q Median 3Q Max 
-29.046 -8.482 0.786 7.702 28.292 


Coefficients: 
Estimate Std. Error t value Pr(>|tl) 
(Intercept) 84.5473 13.6067 6.214 1.38e-07 *x*xx*% 


T12 1.3150 0.4974 2.644 O0.01117 * 
Vx 0.4864 0.1675 2.903 0.006565 *xx* 
Ne12 -4.8934 1.0270 -4.765 1.93e-05 *xxx* 


Signif. codes: O ?**%*? 0.001 ?**? 0.01 ?x? 0.05 ?.? 0.1 ?” ? 1 


Residual standard error: 13.91 on 46 degrees of freedom 
Multiple R-Squared: 0.6819, Adjusted R-squared: 0.6611 
F-statistic: 32.87 on 3 and 46 DF, p-value: 1.663e-11 
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La dernière ligne de la sortie du logiciel donne la statistique de test global, 
tous les coefficients sont nuls sauf la constante. Nous avons n = 50 observations, 
nous avons estimé 4 paramètres et donc le ddl du Fisher est bien (3,46). Nous 
refusons Ho (tous les coefficients sauf la constante sont nuls) : au moins un des 
coefficients associé à T12, Vx, Ne12 est non nul. 

Le tableau Coefficients nous donne à la ligne j le test de la nullité d’un 
paramètre Ho : 8; = 0. Nous constatons qu’au seuil de 5 % aucun coefficient 
n’est significativement égal à 0. La dernière colonne donne une version gra- 
phique du test : *+* signifie que le test rejette Ho pour des erreurs de première 
espèce supérieures ou égales à 0.001, *x* signifie que le test rejette Ho pour des 
erreurs de première espèce supérieures ou égales à 0.01, * signifie que le test 
rejette H, pour des erreurs de première espèce supérieures ou égales à 0.05,. 
signifie que le test rejette Ho pour des erreurs de première espèce supérieures 
ou égales à 0.1. 

Tous les coefficients sont significativement non nuls et il ne semble donc 
pas utile de supprimer une variable explicative. Si nous comparons ce modèle 
au modèle du chapitre précédent à l’aide d’un test F entre ces deux modèles 
emboîtés, nous avons 


modele2 <- 1m(03"T12+Vx,data=ozone) 
anova(modele2 ,modele3) 

Model 1: 03 * T12 + Vx 

Model 2: 03  T12 + Vx + Ne12 


Res .Df RSS Df Sum of Sq F PrOF) 
1 47 13299.4 
2 46 8904.6 1 4394.8 22.703 1.927e-05 **xx* 


Signif. codes: O0 ?**%x*x? 0.001 ?xx? 0.01 ?*x° 0.05 ?.? 0.1 ? ? 1 


Nous retrouvons que le test F entre ces deux modèles est équivalent au test T 
de nullité du coefficient de la variable Ne12 dans le modèle modele3 (les deux 
probabilités critiques valent 1.93e — 05). 

En conclusion, il semble que les 3 variables T12, Vx et Ne12 soient explica- 
tives de l’ozone. 


3.7.2 La hauteur des eucalyptus 


Le but de cet exemple est de prévoir la hauteur (ht) par la circonférence 
(circ). Lors des deux chapitres précédents nous avons introduit deux modèles 
de prévision, le modèle de régression simple 


ht — fi +fÜicirc+e 
et le modèle de régression multiple 


ht — fi +fHicirc+fH3Vcirc+e. 
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Si l’on souhaite choisir le meilleur des deux modèles emboîtés, nous pouvons 
conduire un test F. Rappelons les commandes pour construire les deux modèles. 


regsimple <- Im(ht”circ,data=eucalypt) 
regM <- 1m(ht”circ+Il(sqrt(circ)),data=eucalypt) 


Le test Fest obtenu simplement comme suit. 


anova(regsimple,regM) 
Analysis of Variance Table 


Model 1: ht ” circ 
Model 2: ht ” circ + I(sqrt(circ)) 
Res .Df RSS  Df Sum of Sq F PrOF) 
1 1427 2052.08 
2 1426 1840.66 1 211.43 163.80 < 2.2e-16 *x*x* 


Signif. codes: O ?**%*? O.001 ?**? 0.01 ?x*x? 0.05 ?.? 0.1 ” ? 1 


Nous pouvons voir que l’observation de la statistique de test vaut 163.80, ce qui 
est supérieur au quantile 95 % d’une loi de Fisher à (1,1426) degré de liberté 
qui vaut 3.85 (obtenu avec qf(0.95,1,regM$df.res)). Nous repoussons H4 
au profit de H; : le modèle de prévision adapté semble le modèle de régression 
multiple, malgré ses problèmes de prévision pour les hautes valeurs de circon- 
férence. Rappelons que l’on peut retrouver le résultat de ce test avec le test T 
de nullité d’un coefficient : 


summary (regM) 


Call: 
Im(formula = ht ” circ + I(sqrt(circ)), data = eucalypt) 


Residuals: 
Min 1Q Median 3Q Max 
-4.18811 -0.68811 0.04272 0.79272 3.74814 


Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
(Intercept) -24.35200 2.61444 -9.314 <2e-16 **x% 
circ -0.48295 0.05793 -8.336 <2e-16 **%*% 
I(sgrt(circ)) 9.98689 0.78033 12.798 <2e-16 *x*x% 


Signif. codes: O ?**%*? O.001 ?**? 0.01 ?x? 0.05 ?.? 0.1 ” ? 1 
Residual standard error: 1.136 on 1426 degrees of freedom 


Multiple R-Squared: 0.7922, Adjusted R-squared: 0.7919 
F-statistic: 2718 on 2 and 1426 DF, p-value: < 2.2e-16 
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En effet, nous obtenons que l’observation de cette statistique vaut ici 12.798. 
Cette observation au carré est exactement égale à l’observation de la statistique 
de test F (en effet 12.798? & 163.80). Par ailleurs les probabilités critiques sont 
bien égales. 

Notons que, dans ce résumé, le test de Fisher global repousse bien sûr l’hy- 
pothèse de nullité des coefficients des variables cire et Vcirc. L'observation 
de la statistique de test vaut ici 2718 alors que le quantile à 95 % d’une loi de 
Fisher à (2,1426) vaut 3.00. Cette réponse semblait évidente puisque repous- 
ser ici Ho revient à dire qu’une des 2 variables au moins est explicative de la 
hauteur. 

Nous pouvons aussi donner les intervalles de confiance pour le modèle et 
pour les prévisions. Pour cela, nous donnons une grille de valeurs de circon- 
férences réparties entre le minimum (26 cm) et le maximum (77 cm), nous 
calculons la racine carrée de chaque élément de la grille et nous plaçons le tout 
dans un data.frame avec les mêmes noms que les variables du modèle. 


circ=-seq(min(eucalypt[,"circ"]),max(eucalypt[,"circ"]),1en=-100) 
grille <- data.frame(circ) 

grille2 <- cbind.data.frame(grille,sqrt(grille)) 

names(grille2) <- c("circ","I(sgrt(circ))") 


Ensuite nous utilisons la fonction predict() qui permet de donner les prévi- 
sions mais aussi les IC, tant pour le modèle que pour les prévisions. Enfin nous 
représentons les données et les IC à 95 %. 


ICdte=predict(regM,new=grille2,interval="confidence" ,level=0.95) 
ICpre=predict(regM,new=grille2,interval="prediction",level=0.95) 
plot(ht”circ,data=eucalypt,pch="+",co1l="grey60") 
matlines(circ,cbind(ICdte,ICprevl,-1]),1ty=c(1,2,2,3,3) ,col=1) 
legend(26,26,1ty=-2:3,c("E(y)","prev")) 


Cette figure nous permet de voir la mauvaise précision du modèle pour les fortes 
valeurs de circonférence. 


ht 
=. 


Ce D | +15 à Let 
[oil Pro La" 
2 SARL ES 
30 40 50 60 70 


circ 


Fig. 3.4. Modèle de régression multiple ht — B1 + Bocire + B3Vcirce +e et 
intervalles de confiance à 95 % pour ht et pour E(ht). 
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Remarque 

Nous aurions pu construire un modèle de prévision de la hauteur uniquement 
avec la racine carrée de la circonférence. Ce modèle de régression simple est 
meilleur que le modèle de régression simple proposé : il possède un R? de 0.78 
au lieu de 0.77. Cependant le test de ce modèle (ht = Bi + H2vcirc) contre 
celui incorporant circ et Vcirc, (ht = {1 + fHocire + B3Vcirc +€), conduit 
à garder ce dernier. 


3.8 Exercices 


Exercice 3.1 (Questions de cours) 
1. Nous pouvons justifier les MC quand €  W(0, Ta?) via l'application du 
maximum de vraisemblance : 
À. oui; 
B. non; 
C. aucun rapport entre les deux méthodes. 


2. Ÿ a-t-il une différence entre les estimateurs B des MC et B du maximum 
de vraisemblance ? 
A. Oui; 
B. Non; 
C. Pas toujours, cela dépend de la loi des erreurs. 


3. Ÿ a-t-il une différence entre les estimateurs 6? des MC et 0? du maximum 
de vraisemblance ? 
A. Oui; 
B. Non; 
C. Pas toujours, cela dépend de la loi des erreurs. 


4. Le rectangle formé par les intervalles de confiance de niveau a individuels 
de B1 et f2 correspond à la région de confiance simultanée de niveau a 
de la paire (f1,B2). 

A. Oui; 
B. Non; 
C. Cela dépend des données. 


5. Nous avons n observations et p variables explicatives, nous supposons que 
e suit une loi normale, nous voulons tester Ho : B2 = Pa = Pa = 0. Quelle 
va être la loi de la statistique de test ? 

À. Fp-3n-p; 
B. Fan-p; 
C. Une autre loi. 


Exercice 3.2 (Théorème 3.1) 
Démontrer le théorème 3.1 p. 56. 
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Exercice 3.3 (Test et R?) 
Démontrer que la statistique du test Fisher 


Yo eu Y?/@ — Po) 
I —Y?/(n-—p) 


peut s’écrire sous la forme 


F — R?-Rèin-p 
LR pe Bo. 


où R? (RÈ) correspond au R? du modèle complet (du modèle sous Ho). 


Exercice 3.4 (Ozone) 
Nous voulons expliquer la concentration de l’ozone sur Rennes en fonction des 
variables T9, T12, Ne9, Ne12 et Vx. Les sorties données par GNU-R sont : 


Coefficients : 

Estimate Std. Error t+t value Pr(>ltl) 
(Intercept) 62 10 1 0 
T9 4 [2 | E 0 
T12 5 0.75 3 0 
Ne9 -1.5 1 0.08 
Ne12 -0.5 0.5 [5] 0.53 
Vx 0.8 0.15 5.5 0 


Multiple R-Squared : 0.6666, Adjusted R-squared : 0.6081 
Residual standard error : 16 on 124 degrees of freedom 
F-statistic : [6 on |7 | and |8| DF, p-value : 0 


1. Compléter approximativement la sortie ci-dessus sur une feuille. 


2. Rappeler la statistique de test et tester la nullité des paramètres séparé- 
ment au seuil de 5 %. 


3. Rappeler la statistique de test et tester la nullité simultanée des para- 
mètres autres que la constante au seuil de 5 %. 


4. Voici une nouvelle valeur, peut-on effectuer la prévision et donner un 
intervalle de confiance à 95 % (T9—10, T12—20, Ne9—0, Ne12—0, Vx—1) ? 


5. Les variables Ne9 et Ne12 ne semblent pas influentes et nous souhaitons 
tester la nullité simultanée de Gyeo et Üne12. Proposer un test permettant 
de tester la nullité simultanée de Grues et Üne12 et l’effectuer à partir des 
résultats numériques suivants : 
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Coefficients : 

Estimate Std. Error t+t value Pr(>ltl) 
(Intercept) 66 11 6 0 
T9 -5 1 -5 0 
T12 6 0.75 8 0 
Vx 1 0.2 5 0 


Multiple R-Squared : 0.5, Adjusted R-squared : 0.52 
Residual standard error : 16.5 on 126 degrees of freedom 


Exercice 3.5 (fEquivalence du test T et du test F.) 
Nous souhaitons tester la nullité d’un paramètre. Démontrer l’équivalence entre 
le test de Student et le test de Fisher. 


Exercice 3.6 (ffEquivalence du test F et du test de VM.) 
Nous souhaitons tester la nullité simultanée de q paramètres. Ecrire le test de 


rapport de vraisemblance maximale. Montrer que ce test est équivalent au test 
F. 


Exercice 3.7 (jf f {Nouvelles propriétés) 

Démontrer que dans le modèle gaussien, la statistique (B , 6?) est une statistique 
complète et (B, 6?) est de variance minimum dans la classe des estimateurs sans 
biais (indice : utiliser le théorème de Lehmann-Scheffé). 


3.9 Notes 


Quelquefois l'hypothèse de normalité (H3), nécessaire à la validité des tests 
et des intervalles de confiance, n’est pas vérifiée ou non vérifiable. 

Dans ce cas on peut choisir de ne pas faire appel à l’hypothèse de normalité. 
Les tests qui permettent de choisir entre des modèles contraints ou des modèles 
non contraints (ou tests entre modèles emboîtés) peuvent être alors remplacés 
par une des procédures de choix de modèles décrites au chapitre 6. Pour les 
intervalles de confiance, une procédure spécifique existe, basée sur le bootstrap 
(section 3.9.1). 


3.9.1 Intervalle de confiance : bootstrap 


L'objectif de cette section est de présenter la méthode du bootstrap en 
régression afin que le lecteur puisse obtenir un intervalle de confiance pour 
5, sans donner d’hypothèse supplémentaire sur la loi des erreurs €. Le lecteur 
intéressé par le bootstrap en tant que méthode statistique pourra consulter le 
livre de Efron & Tibshirani (1993). 
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Le modèle utilisé est Y = X£B +E£ où € est une variable aléatoire de loi F 
inconnue et d’espérance nulle. L'idée du bootstrap est d’estimer cette loi par 
ré-échantillonnage. 

Nous considérons que la constante fait partie du modèle. La somme des 
résidus estimés vaut donc zéro. 

— À partir du nuage de points (X,Ÿ), estimer par les MC f et € par B et 

&. Soit F, la distribution empirique des é. 

— Tirer au hasard avec remise n résidus estimés é; notés é*. 

À partir de ces n résidus, construire un échantillon 


Y*= XB+E 


appelé échantillon bootstrapé ou encore échantillon étoile. 
— À partir de l'échantillon étoile (X, Y *) estimer le vecteur des paramètres. 
La solution est 


ô* = CRXNT ENT, 


La théorie du bootstrap indique que la distribution de Vn(Ë* — B), distri- 
bution que nous pouvons calculer directement à partir des données, approche 
correctement la distribution de Vn(ê — B) qui elle ne peut pas être calculée, 
puisque f est inconnu. 

Afin de calculer la distribution de /n(3* — B) nous calculons B échantillons 
bootstrapés ou étoiles et calculons ensuite B estimateurs B* de ê. 

Il faut donc répéter B fois les étapes suivantes : 

— tirer au hasard avec remise n résidus estimés é; notés et) 3 

— à partir de ces n résidus, construire un échantillon y) = PAC) + en), 

appelé échantillon bootstrapé ; 

— à partir de cet échantillon bootstrapé, estimer BU), 

Pour donner un ordre d’idée, une valeur de 1000 pour B est couramment uti- 
lisée. Nous obtenons alors B estimateurs de 5 noté BR), À partir de ces 1000 
valeurs, nous pouvons calculer toutes les statistiques classiques. Si nous nous 
intéressons à la distribution des B;, nous pouvons estimer cette distribution en 


calculant l’histogramme des QPe De même un intervalle de confiance peut être 


obtenu en calculant les quantiles empiriques des oi 


Voyons cela sur l’exemple de la concentration en ozone. Nous continuons 
notre modèle à 3 variables explicatives des pics d’ozone, la température à 12 h 
(T12), la nébulosité à 12 h (Ne12) et la projection du vent à 12 h sur l’axe est- 
ouest (Vx). Le modèle est toujours construit grâce à la commande suivante : 


modele3 <- 1m(037T12+Vx+Ne12,data=ozone) 


Nous pouvons ensuite résumer la phase d’estimation et nous intéresser aux 
coefficients. 


Inférence dans le modèle gaussien 


73 


resume3 <- summary (modele3) 
coef3[,1:2] 

Estimate Std. Error 
(Intercept) 80.1437444 13.7144584 


T12 1.4447834 0.5013485 
Vx 0.5814378 0.1688762 
Ne12 -3.7864855 1.0351274 


Cette procédure ne suppose que deux hypothèses très faibles H1 et H2. Afin 
de construire un intervalle de confiance pour les paramètres sans supposer la 
normalité, nous appliquons la procédure de bootstrap. 

La première étape consiste à calculer les résidus estimés £ — AS 
ajustements Ÿ. 


res <- residuals(modele3) 

ychap <- predict(modele3) 

COEFF <- matrix(0,ncol=4,nrow=1000) 
colnames(COEFF) <- names(coef (modele3)) 
ozone.boot <- ozone 


Ensuite nous allons appliquer la procédure de bootstrap avec B = 1000 échan- 
tillons bootstrapés. 


for(i in 1:nrow(COEFF)){ 
resetoile <- sample(res,length(res) ,replace=T) 
D3etoile <- ychap + resetoile 
ozone.boot[,"03"] <- O3etoile 
regboot <- 1Im(formula(modele3) ,data=ozone.boot) 
COEFF[i,] <- coef(regboot) 

} 


Nous avons obtenu une matrice de 1000 coefficients estimés (COEFF) et nous 
choisissons les quantiles empiriques à 2.5 % et 97.5 % de ces échantillons afin 
de déterminer les intervalles de confiance. 


apply(COEFF,2,quantile,probs=c(0.025,0.975)) 


(Intercept) T12 Vx Ne12 
2.5% 58.0241 0.4148645 0.1856668 -6.750358 
97.54 109.7853 2.2666724 0.8162993 -2.784720 


Un IC à 95 % pour le coefficient associé à T12 est donc donné par [0.41; 2.26]. 
En supposant que les erreurs suivent une loi normale, nous avions [0.48; 2.15]. 
L’intervalle est donc plus grand. 

Nous pouvons aussi considérer un estimateur de la densité des B; en traçant 
un histogramme des ie Voici l’histogramme des estimateurs du coefficient 
associé à la variable température. 
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hist(COEFF[,"T12"],main="",xlab="Coefficient de T12") 


Cet histogramme semble indiquer que la loi est proche d’une loi normale. 


Densité 


07 05 10 15 20 25 
Coefficient de T12 


Fig. 3.5. Histogramme des estimateurs bootstrapés pour la variable T12. 


Remarque 
Nous aurions pu commencer par tirer avec remise n individus parmi les n couples 
d'observations (x!,y;) et continuer comme présenté ci-dessus. Ce bootstrap est 
plus adapté au cas où les variables X; sont des variables aléatoires. Les lec- 
teurs intéressés par cette procédure peuvent consulter Efron & Morris (1973) 
par exemple. 


3.9.2 Test de Fisher pour une hypothèse linéaire quel- 
conque 


Dans la partie 3.6.2, nous avons testé la nullité simultanée d’un certain 
nombre de coefficients. Cela nous à permis de transcrire facilement l’hypothèse 
Ho en terme d’espace. Nous allons aborder maintenant le cas où l’hypothèse à 
tester est de la forme RG = r. 

Rappelons nos trois questions initiales : 
(a) est-ce-que la valeur de max03 est influencée par Vx ? 
(b) y a-t-il un effet nébulosité ? 
(c) est-ce-que la valeur de max03 est influencée par Vx et T12? 
Toutes ces hypothèses sont des cas particuliers de l'hypothèse linéaire générale : 


Ho: RB —=0 contre H1: RB5 Z0, 


où R est une matrice q X p connue de rang q. Il suffit de poser 


(a) Rue 0 00 de ‘07 r = 0; 
(b) RDIREUR A FD, 
o  #-[i3t5) sf] 
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où R est une matrice q x p de rang q, r est un vecteur de taille getoù Retr 
sont connus. Nous imposons q contraintes linéaires 2 à 2 indépendantes sur 
les coefficients B;. Cette façon de procéder permet de tester également 


B; = 6} R = [0 .… 1; .… 0] r = 8; 


ou encore les q derniers GB; sont nuls grâce aux matrices 
re = 


Nous imposons la contrainte générale RG = r. Cela revient à imposer en fait 
q (le rang de R) contraintes linéaires sur les paramètres et cela peut se traduire 
d’un point de vue géométrique par E(Y) n’appartient plus à l’espace engendré 
par toutes les colonnes de X, espace que nous avons noté S(X) mais à un 


sous-espace engendré par les colonnes de X satisfaisant la contrainte linéaire 
RG = 0. 


Définition 3.1 
Une hypothèse linéaire quelconque H, est de la forme RB —r = 0, où R est une 
matrice de taille q X p de rang q et r un vecteur de taille q. 


Théorème 3.3 

Soit un modèle de régression à p variables Y = XB +E satisfaisant H1 et Ha. 
Nous souhaîitons tester dans le cadre de ce modèle la validité d’une hypothèse 
linéaire quelconque Ho RG = r, avec le rang de R égal à q, contre H1 RG # r. 
Soit So le sous-espace de Sx de dimension (p — q) engendré par la contrainte 
RGB = 7 (ou Ho) et Sx le sous-espace de dimension p associé à H1. 

Pour tester ces deux hypothèses nous utilisons la statistique de test F ci-dessous 
qui possède comme loi sous Ho : 


IT — Yol?/dim(Ss NSx) 
IX — Ÿ12/ dim(S x) 
n—p|Y -Ÿl?-1Y-Ÿ1? 


EF — 


ï IX — Ÿ12 
__ n-—pSCRo-SCR + 
er SCR Li 


et sous H1 la loi reste une loi de Fisher mais décentrée de | Psiasx XB||?/0°. 


L'’estimation Y est donnée par 
Xfo = XÜ+X(X'X) tR'IR(X'X) LR] l(r — R). 


L'hypothèse H, sera repoussée en faveur de H1 si l’observation de la statistique 
F est supérieure à fon-p(1 — @), la valeur à étant la probabilité de rejeter à 
tort Ho ou erreur de première espèce. 
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Preuve 

Nous pouvons toujours traduire l'hypothèse Ho : RG = r en terme de sous- 
espace de Sx. Lorsque r = 0, nous avons un sous-espace vectoriel de $x et 
lorsque r 0 nous avons un sous-espace affine de $x. Dans les deux cas, nous 
noterons ce sous-espace So et So C Sx. Cependant nous ne pourrons plus le 
visualiser facilement comme nous l’avons fait précédemment avec S x, où nous 
avions enlevé des colonnes à la matrice X. Nous allons décomposer l’espace S x 
en deux sous-espaces orthogonaux 


Ix = Vo D (SN Ix). 


Sous Ho, l'estimation des moindres carrés donne Ÿ projection orthogonale de Y 
sur %, et nous appliquons la même démarche pour construire la statistique de 
test. La démonstration est donc la même que celle du théorème 3.2. C'est-à-dire 
que nous regardons si Yo est proche de Ÿ et nous avons donc 


IÉ — I? dim(s n 8x) 
IX — ŸI2/dim(S x) 
n—p|X ll? 1Y -ŸI 


F —= 


q PA 
__ n-—pSCRo-SCR 
ar SCR Fe 


Le problème du test réside dans le calcul de Yo Dans la partie précédente, il 
était facile de calculer A car nous avions la forme explicite du projecteur sur 
So. 

Une première façon de procéder revient à trouver la forme du projecteur sur 
So. Une autre façon de faire est de récrire le problème de minimisation sous la 
contrainte RG = r. Ces deux manières d’opérer sont présentées en détail dans 
la correction de l’exercice 2.8. Dans tous les cas l’estimateur des MC contraints 
par RGB = r est défini par 


Bo = B+(X'X) R'IR(X'X) LR] l(r — RG). 


3.9.3 Propriétés asymptotiques 


Nous allons étudier des propriétés asymptotiques de re et 4?, c’est-à-dire 
lorsque n tend vers l'infini. Ce type d’études permet de s’assurer de la pertinence 
des estimateurs. En effet, nous savons que lorsque n est fixé, ô est un estimateur 
sans biais de f, de variance minimum parmi les estimateurs linéaires sans biais 
(théorème de Gauss-Markov). Mais lorsque n augmente, c’est-à-dire lorsque la 
quantité de données et donc l’information augmente, est-ce que ô va tendre 
vers 8 ? Quelles sont les conditions à réunir pour que cette convergence (en 
moyenne quadratique) se produise ? 


Inférence dans le modèle gaussien 


“ 


Commençons par introduire quelques notations. Pour chaque n, le modèle 
linéaire correspondant est noté (y,, X,,0?1,). Nous supposerons que la ma- 
trice X, est de plein rang pour un indice m et que les matrices (X;)»>m le 
seront également. Pour n > m, nous définissons la suite bn par 


de T Cr AUX 
avec E(6,) = 8 et V(Bn) = o2(X/Xn) 1. 


Une condition suffisante pour que la suite (B) converge vers en moyenne 
quadratique, et donc en probabilité, est que V(B,) converge vers zéro. 


Théorème 3.4 (Convergence de B) : 
Sous Hi et Ho, si ét eR tend vers zéro avec n alors PB} converge vers B 
en moyenne quadratique. 


Rappelons que si les variables X1,...,X, sont supposées aléatoires, ce qui 
n'est pas le cas ici, (X/ X,)/n est un estimateur de la matrice de variance des 
p variables explicatives. À priori, si les X; sont mesurées, nous pouvons sup- 
poser qu’elles sont mesurées avec des erreurs, même petites. Cela permet de 
penser que ces variables peuvent être considérées comme aléatoires. En pra- 
tique, nous supposons toujours qu’un vecteur aléatoire admet une matrice de 
variance À fixée et donc a priori (X} Xh)/n — A. Comme À est fixée, nous 
avons n(X}X,) ! — A-let donc (X/X,) ! — 0. La condition de convergence 
n’est donc absolument pas contraignante. 

Nous savons que V(Bn) = o?(X!,Xh)-!, où o? est fixé. La condition de 
convergence s’exprime done comme « la variabilité de bn tend vers 0 avec n », 
ce qui semble assez naturel. 


Preuve 


E(lÂ 81?) = E(lên-Eônl?) 


= t[V(Bn)] 
= MON EXL NE 


Si (X/X,) ! tend vers zéro, tr(X/ X,) !) tend vers zéro et le théorème est 
démontré. 


Nous pouvons aussi considérer l’estimateur 6? et se poser la même question : 
quelles sont les conditions nécessaires pour que l’estimateur converge vers sa 
vraie valeur quand le nombre de données augmente ? 


Théorème 3.5 (Convergence de 6?) 
Si H1 et Ha sont vérifiées et si les €; sont 1.1.4. alors & 
probabilité. 


- COnverge vers o? en 
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Preuve 
Partons de la définition de 62 : 
1 
19 RE à 
ÉRE- ponér 
1 ! 
— e, — Px, En 
EE 
1 1 
D DEner — Den PxiEn 


La loi forte des grands nombres indique que le premier terme converge p.s. vers 
o?. Nous allons montrer que le second terme converge en probabilité vers zéro. 
Pour tout n positif, l'inégalité de Markov donne 


HR 1 
VW>0, P fi | ) See pipes) 
n—p n(n — p) 
1 
< ————Eltr(e, Px,en)] 
n(n — p) 
1 2 
<  ————— 0" tr(Px, 
n(n — p) x) 
< 12 — (. 
n(n — p) 


La dernière partie de cette note concerne la normalité asymptotique. Cela va 
permettre de donner des intervalles de confiance (IC) et de faire des tests sans 
supposer d’hypothèse supplémentaire sur la loi des € car nous utiliserons alors 
la loi limite. 


Théorème 3.6 (Normalité asymptotique) 
Si H1 et H2 sont vérifiées, si les €; sont ï.i.d. et si (X}, X»)/n tend vers À 
définie positive {donc inversible), alors 


VR(Bn — 8) — N(0,9*A77) 


Preuve 
Nous allons donner une idée de la preuve de ce théorème. 


Vn(Ün — 6) = Va ((X n)— XyYn — B) 


X 
Ni) AXE Fée 8) 
X 


Posons w; la i° colonne de la matrice n(X/,X,) !X/. Nous utilisons ensuite un 
théorème central limite pondéré qui se trouve dans Antoniadis et al. (1992). 
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Nous retrouvons la même condition sur la convergence de (X/,X,) !. Il 
semble raisonnable de penser que cette condition est vérifiée. Afin d'utiliser ce 
théorème en pratique, pour calculer des intervalles de confiance, nous devons 
savoir si, avec les observations et leur nombre, nous avons (X/ X,) ! suffisam- 
ment proche de 0. Le problème est bien sûr impossible à résoudre formellement 
et, comme cette convergence dépend à la fois de n et des observations X,, il 
n'existe pas de règle du type « à partir de 100 observations on peut... ». 


Chapitre 4 


Validation du modèle 


Nous rappelons le contexte : 


Ynx1 = Xnxp Bpx1 + Enx1; 


sous les hypothèses 
— Hi :rang(X) = p. 
- H2:E(e) =0, Ye = 071], ou H3:e 7 N(0,021,). 


Les différentes étapes d’une régression peuvent se résumer de la sorte : 


1. la modélisation : nous avons supposé que la variable Y est expliquée de 
manière linéaire par les variables X,-:-,X, via le modèle de régression 
Y =XB+E; 


2. l'estimation : nous avons ensuite estimé les paramètres grâce aux données 
récoltées. Les hypothèses sur le bruit £ notées H{2 ou H3 ont permis 
d'établir des propriétés statistiques des estimateurs obtenus ; 


3. la validation qui est l’objectif de ce chapitre. Nous aborderons le problème 
de la validation des hypothèses H{2 ou H3. La vérification de l'hypothèse 
H1 est immédiate et les solutions dans le cas où cette hypothèse n’est 
pas vérifiée seront abordées au chapitre 8. Nous envisagerons aussi les 
problèmes d'ajustement d’un individu ainsi que la validation du modèle 
lui-même (validation globale), problème important mais souvent négligé. 
Cette validation globale peut être envisagée de deux manières : choix 
ou non d'inclure des variables et/ou vérification du caractère linéaire de 
la liaison entre la variable considérée et Y comme spécifié par le modèle. 
Nous traiterons ici le caractère linéaire de la liaison et les transformations 
éventuelles à effectuer pour rendre cette liaison linéaire. Le choix d'inclure 
ou de retirer des variables sera étudié en détail au chapitre 6. 
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4.1 Analyse des résidus 


L'examen des résidus constitue une étape primordiale de la régression li- 
néaire. Cette étape est essentiellement fondée sur des méthodes graphiques, et 
il est donc difficile d’avoir des règles strictes de décision. L'objectif de cette 
partie est de présenter ces méthodes graphiques. Commençons par rappeler les 
définitions des différents résidus. 


4.1.1 Les différents résidus 


Les résidus théoriques €; sont estimés par &; = y; — ÿ;. Nous avons 


Hypothèses Réalité 
V(E) = o?1 V(E) = o°(1 — Px) 


n d'éliminer non-homogénéité des variances résidus estimés, nou 
Afin d'’él er la non-homogénéité des variances des résidus estimés, nous 
préférons utiliser les résidus normalisés définis par 


Ei 
OV 1 h;; ’ 
où h;; est l'élément (1, j) de la matrice Px. Or © est inconnu, si nous remplaçons 
o par 6, nous obtenons les résidus standardisés 


Ti — 


Ei 

en 

Ces résidus ne sont pas indépendants par construction puisque la variance 
résiduelle estimée 64? a été estimée avec toutes les données. Ils ne peuvent donc 
pas être représentatifs d’une absence/présence de structuration par autocorré- 
lation. Cependant, ils possèdent la même variance unité. Ils sont donc utiles 
afin de détecter des valeurs importantes de résidus. Puisqu’ils possèdent une 
même variance, ils sont donc dans la même « bande » de largeur constante 
qu’une règle « empirique » habituelle fixe à +2, car 2 est proche du quantile à 
97.5 % d’une loi normale. 

Afin d'utiliser des résidus de même variance unité et indépendants, nous 
préférons les résidus studentisés par validation croisée (VC) (souvent nommés 
dans les logiciels studentized residuals) 


“ êi 

Li —— 

à VI hi 

où 6; est l’estimateur de & dans le modèle linéaire privé de l’observation 1. 


Ces résidus qui sont indépendants, suivent une loi de Student (cf. théorème 
4.1) sous l'hypothèse H3 et sont construits très simplement en deux étapes : 
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1. Nous estimons les paramètres Set o? avec tous les individus, excepté le 
i°, nous obtenons alors f4;, et CA : 
2. Nous prévoyons y; par Ÿÿ — t'Bt. 
Sous l’hypothèse de normalité des résidus, nous avons montré (3.5) p. 60 
que 


Tn+1 . Bt de T(n … p) 
Ê/1+ru (XX) any 


Ce résultat s’applique ici et s’écrit alors avec les bonnes notations : 


Ü; — ŸÙ 
= LEP © T(n—-1—p), 
où X{;, est la matrice X privée de sa 4° ligne. Nous avons donc (n — 1) obser- 
vations et perdons un degré de liberté (cf. exercice 4.3). 


Théorème 4.1 (Loi des résidus studentisés par VC) 

Si la matrice X est de plein rang, si les €; + N'(0, 0?) et si la suppression de 
la ligne à ne modifie pas le rang de la matrice, alors les résidus studentisés par 
VC, notés t*, suivent une loi de Student à (n — p — 1) degrés de liberté. 


Remarque 
Les calculs menés dans la preuve montrent le lien existant entre l’erreur de 
prévision y; — ÿ} et l’erreur d’ajustement (ou résidu) y; — ÿ;. Nous avons 


D Vi — Vi (4.1) 


Ce résultat permet de calculer l’erreur de prévision sans avoir à recalculer Bu 
pour chaque observation à, le gain de temps n’est pas négligeable. 


Conclusion 
Les résidus utilisés sont en général les &; mais leur variance dépend de l’ob- 
servation à via la matrice de projection, l’utilisation de ces résidus est, à notre 
avis, à déconseiller. Nous préférons travailler avec des résidus homoscédastiques 
et donc utiliser {; ou t;. Ces derniers permettent de détecter des valeurs aber- 
rantes. Il semble cependant préférable d’utiliser {* pour plusieurs raisons : 
e Les t* sont i.i.d. et suivent un 7,-_,-1, ils permettent de mieux appréhen- 
der une éventuelle non-indépendance non prise en compte par le modèle ; 
e Nous avons t* = t;4/(n — p — 1)/(n — p—t?) et donc lorsque t; est su- 
périeur à 1, t > t; car V/(n—p—1)/(n—p—1?) > 1. Les résidus stu- 
dentisés font mieux ressortir les grandes valeurs et permettent donc une 
détection plus facile des valeurs aberrantes ; 
e Enfin 6(;) est indépendant de 7; et n’est donc pas influencé par des erreurs 
grossières sur la 4° observation. 


84 


Régression - Théorie et applications 


4.1.2 Ajustement individuel au modèle, valeur aberrante 


Pour analyser la qualité de l’ajustement d’une observation, il suffit de regar- 
der le résidu correspondant à cette observation. Si ce résidu est anormalement 
élevé (sens que nous allons préciser), alors l'individu à est appelé individu aber- 
rant ou point aberrant. Il convient alors d’essayer d’en comprendre la raison 
(erreur de mesure, individu provenant d’une sous-population) et éventuellement 
d'éliminer ce point car il peut modifier les estimations. 

Une valeur aberrante est une observation qui est mal expliquée par le modèle 
et admet un résidu élevé. Cette notion est définie par : 


Définition 4.1 (Valeur aberrante) 
Une donnée aberrante est un point (x!,y:) pour lequel la valeur associée à t* est 
élevée (comparée au seuil donné par la loi du Student) : [| > t»_»_1(1—a/2). 


Généralement les données aberrantes sont détectées en traçant les t*. La 
détection des données aberrantes ne dépend que de la grandeur des résidus. 
Voyons cela sur un exemple simulé. 


o 
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10 6 
(a) (b) 
Fig. 4.1. Résidus studentisés corrects (fig. a) et résidus studentisés avec un 
individu aberrant à vérifier signalé par une flèche (fig. b) et un second moins 
important. 


La figure (4.1.a) montre un ajustement individuel satisfaisant : aucune valeur 
absolue de résidu n’est plus grande que la valeur test classique 2. Remarquons 
qu’en théorie & % des observations sont des valeurs aberrantes. Nous cherchons 
donc plutôt les résidus dont les valeurs absolues sont nettement au-dessus du 
seuil de tn_p-1(1 — a/2). Ainsi nous nous intéresserons dans la figure (4.1.b) 
au seul individu désigné par une flèche. 

Une fois repérées et notées, il est bon de comprendre pourquoi ces valeurs 
sont aberrantes : est-ce une erreur de mesure ou d’enregistrement ? Proviennent- 
elles d’une autre population ?.. Nous recommandons d’enlever ces points de 
l’analyse. Si vous souhaitez les conserver malgré tout, il est indispensable de 
s'assurer que ce ne sont pas des valeurs influentes : les coefficients et les in- 
terprétations tirées du modèle ne doivent pas trop varier avec ou sans ces 
observations. 
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4.1.3 Analyse de la normalité 


L'hypothèse de normalité sera examinée à l’aide d’un graphique comparant 
les quantiles des résidus estimés à l’espérance des mêmes quantiles sous l’hypo- 
thèse de normalité. Ce type de graphique est appelé Q-Q plot. Supposons que 
nous ayons n observations £1,...,€, de la variable aléatoire € qui suit une loi 
normale W(0,1). Classons les €; par ordre croissant, €(1,,...,€(n). L'espérance 
de £(;) est alors approchée par 


œ-! (=) si n < 10 


œ ! (—£) sinon, 


n 


où ®(.) est la fonction de répartition de la loi normale (qui est une bijection de R 
dans ]0; 1]). Le graphique est alors obtenu en dessinant £(1,,...,€(,) contre leur 
espérance théorique respective sous hypothèse de normalité. Si cette hypothèse 
est respectée, le graphique obtenu sera proche de la première bissectrice (voir 
fig. 4.10). 


4.1.4 Analyse de l’homoscédasticité 


Il n'existe pas de procédure précise pour vérifier l'hypothèse d’homoscédas- 
ticité. Nous proposons plusieurs graphiques possibles pour détecter une hété- 
roscédasticité. Il est recommandé de tracer les résidus studentisés par validation 
croisée t* en fonction des valeurs ajustées Ÿ;, c’est-à-dire tracer les couples de 
points (ÿ;,t*). Si une structure apparaît (tendance, cône, vagues), l’hypothèse 
d’homoscédasticité risque fort de ne pas être vérifiée. Voyons cela sur un gra- 
phique. 
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Fig. 4.2. Hétéroscédasticité des résidus. 


L’ajustement n’est pas satisfaisant (fig. 4.2) car la variabilité des résidus 
augmente avec la valeur de %ÿ;, on parle de cône de variance croissante avec la 
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valeur de l’axe des abscisses Ÿ. Le second graphique trace la valeur absolue 
du résidu avec une estimation de la tendance des résidus. Cette estimation 
de la tendance est obtenue par un lisseur, ici lowess (Cleveland, 1979). Ce 
lisseur, qui est aussi nommé 1loess, est le plus utilisé pour obtenir ce type de 
courbe. Il consiste en une régression par polynômes locaux itérée. Nous voyons 
que la tendance est croissante et donc que la variance des résidus augmente 
le long de l’axe des abscisses. Ce deuxième graphique permet de repérer plus 
facilement que le premier les changements de variance éventuels dans les résidus. 
Le choix de l’axe des abscisses est très important et permet (ou non) de détecter 
une hétéroscédasticité. D’autres choix que Ÿ en abscisse peuvent s'avérer plus 
pertinents selon le problème comme le temps, l’indice. 


4.1.5 Analyse de la structure des résidus 


Les résidus sont supposés être non corrélés entre eux (H{2) ou indépendants 
(H3). L'indépendance est très difficile à tester de manière formelle. Le test de 
Durbin-Watson, le plus souvent avancé et le plus souvent utilisé, consiste à 
tester Ho : l'indépendance, contre H; : les résidus sont non indépendants et 
suivent un processus autorégressif d'ordre 1 (e.g. Montgomery et al., 2001). 
Cependant il existe de nombreux autres modèles de non-indépendance qui ne 
seront pas forcément détectés par ce test. 

D'un point de vue graphique, une représentation des résidus choisie de ma- 
nière judicieuse pourra permettre de repérer quelques cas de non-indépendance 
et compléter ainsi l’analyse obtenue par des tests. Si l’on soupçonne une struc- 
turation temporelle (autocorrélation des résidus), un graphique temps en abs- 
cisse, résidus en ordonnée sera tout indiqué. Si l’on soupçonne une structuration 
spatiale, un graphique possible consiste en une carte sur laquelle en chacun des 
points à de mesure, on représente un cercle ou un carré (selon le signe du résidu 
estimé) de taille variable (selon la valeur absolue du résidu estimé). Ce type 
de graphique (voir fig. 4.3, p. 87) permettra peut-être de détecter une structu- 
ration spatiale (agrégats de ronds ou de carrés, ou au contraire alternance des 
ronds/carrés). Si une structuration est observée, un travail sur les résidus et en 
particulier sur leur covariance est alors nécessaire. 

Exemple 

Un autre exemple très classique de structuration est tiré du livre d’'Upton & 
Fingleton (1985). Le but de la modélisation est d'expliquer une variable Y, 
le nombre de plantes endémiques observées, par trois variables : la surface de 
l’unité de mesure, l'altitude et la latitude. Les résidus studentisés sont représen- 
tés sur la carte géographique des emplacements de mesure (fig. 4.3). On observe 
des agrégats de résidus positifs ou négatifs qui semblent indiquer qu’une struc- 
turation spatiale reste présente dans les résidus. Dans cet exemple, une simple 
représentation des résidus en fonction de Ÿ ou du numéro de l'observation n’ap- 
porte que peu d’information. En conclusion nous pouvons donc insister sur le 
choix adéquat de la représentation graphique des résidus. 
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Fig. 4.3. Exemple de résidus studentisés structurés spatialement. 


L'utilisation d’un lisseur peut permettre de dégager une éventuelle structu- 
ration dans les résidus (voir fig. 4.4) et ce de manière aisée et rapide, ce qui 
est primordial. Il est cependant difficile, voire impossible, de discerner entre 
une structuration due à un oubli dans la modélisation de la moyenne et une 
structuration due à une mauvaise modélisation de la variance (voir fig. 4.4). 


0.0 0.5 15 2.0 2:5 “60 0.5 1.0 2.0 2:5 


10 T5 
(a) (b) 
Fig. 4.4. Tendance sinusoïdale due à des bruits autorégressifs d’ordre 1, 
Ej = PEi-1 + M (variance mal modélisée, graphique a) ou à une composante 
explicative non prise en compte : X2 = 0.2sin(3x) (moyenne mal modélisée, 

graphique b). 


Un autre type de structuration des résidus peut être due à une mauvaise 
modélisation. Supposons que nous ayons oublié une variable intervenant dans 
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l'explication de la variable Y. Cet oubli se retrouvera forcément dans les rési- 
dus qui sont par définition les observations moins l’estimation par le modèle. 
L'hypothèse d'absence de structuration (Cov(e;,e;) = 0 Vi £ j) risque de ne 
pas être vérifiée. En effet, la composante oubliée dans le modèle va s’addition- 
ner au vrai bruit et devrait apparaître dans le dessin des résidus. Une forme 
quelconque de structuration dans les graphiques des résidus sera annonciatrice 
d’un mauvais ajustement du modèle. Une fois détectée une structuration, il 


suffit, si l’on peut dire, d'ajouter au modèle une variable explicative possédant 
la même structuration. Voyons cela sur un exemple graphique. 
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Fig. 4.5. Résidus studentisés avec une tendance décroissante due à l’oubli d’une 
variable X2 dans le modèle. Les résidus studentisés (par VC) sont représentés 
comme fonctions du numéro de l'observation (index), de l’estimation du modèle 
ÿ et comme fonction de X2. 


La figure (4.5) montre les graphiques d’un modèle linéaire Y = a+, X1+e 
alors que le vrai modèle est un modèle à deux variables Y = a+/651X +62 X2+e€. 
L’ajustement paraît non satisfaisant puisqu’une structure linéaire décroissante 
se dégage des résidus de la troisième représentation. Notons l’importance du 
choix de l’axe des abscisses car les premiers graphiques, représentant les mêmes 
résidus, ne laissent pas soupçonner cette tendance décroissante. Le modèle li- 
néaire proposé n’est donc pas judicieux, il serait bon d’ajouter une nouvelle 
variable constituée par l’axe des abscisses x de la troisième représentation, 
c’est-à-dire ici la variable « oubliée » X2. 

Cependant ce type de diagnostic peut être insuffisant. Une autre méthode 
plus précise, mais plus longue à réaliser, consiste à regarder, variable explicative 
par variable explicative, si la variable explicative considérée agit bien de manière 
linéaire sur la variable à expliquer comme cela est requis dans le modèle. Ce type 
d’analyse sera mené avec des résidus appelés résidus partiels (ou résidus partiels 
augmentés) ou encore par des régressions partielles. Ces graphiques permettent 
de constater si une variable candidate est bien utile au modèle et de trouver 
d'éventuelles fonctions non linéaires de variables explicatives déjà présentes. 
Rappelons qu’une fonction non linéaire f fixée d’une variable explicative X,; 
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est considérée comme une variable explicative à part entière X,41 = f(X;) 
(voir p. 37). Nous verrons cela à la fin de ce chapitre. 


4.1.6 Conclusion 


Il est impératif de tracer un graphique avec en ordonnées les résidus et en 
abscisses soit Ÿ, soit le numéro de l’observation, soit le temps ou tout autre 
facteur potentiel de non indépendance. Ce type de graphique permettra : de 
vérifier l’ajustement global, de repérer les points aberrants, ainsi que de véri- 
fier les hypothèses concernant la structure de variance du vecteur €. D’autres 
graphiques, comme ceux présentant la valeur absolue des résidus en ordonnée 
permettront de regarder la structuration de la variance. L'analyse des résidus 
permet de détecter des différences significatives entre les valeurs observées et 
les valeurs prédites. Cela permet donc de connaître les points mal prédits et les 
faiblesses du modèle en terme de moyenne ou de variance. Cependant, cela ne 
nous renseigne pas sur les variations des estimateurs des paramètres dues à la 
suppression d’une observation et donc à la robustesse de ces estimations. Pour 
cela nous allons dans la prochaine section envisager des mesures adéquates. 


4.2 Analyse de la matrice de projection 


La matrice de projection 
PER CX EN EAT, 
est la matrice intervenant dans le calcul des valeurs ajustées. En effet, 
Ÿ = PxY. 


Pour la ligne à, en notant h;; l'élément courant de la matrice de projection Px>, 
cela s'écrit 


nm 
ho = D hu 
j=1 


= hi + ÿ hijy5. 
JAi 
Cette dernière écriture permet de mesurer le poids de l’observation sur son 
propre ajustement via h;;. 
Définition 4.2 (Poids de l’observation i) 
Le « poids » de l’observation à sur sa propre estimation vaut h;;. 


La matrice de la projection orthogonale Px sur l’espace engendré par les co- 
lonnes de X, d’élément courant h;; admet en particulier comme propriétés 
(annexe B) que si h;; = 1 alors h;; — 0 pour tout j différent de à et à l'inverse 
si hi = 0, alors h;; — 0 pour tout j différent de 1. 

Nous avons alors les cas extrêmes suivants : 
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— si hx = 1, % est entièrement déterminée par y; car h;; = 0 pour tout j; 

— si h;; = 0, y; n’a pas d'influence sur ÿ; (qui vaut alors zéro). 

Nous savons aussi que tr(Px) = JS h;; = p, la moyenne des h;; vaut donc 
p/n. Ainsi si h;; est « grand », y; influe fortement sur ÿ%;. Différents auteurs ont 
travaillé sur ce critère et la définition suivante rapporte leur définition de la 
notion de « grand ». 


Définition 4.3 (Point levier) 
Un point est un point levier si les valeurs h;; de la matrice de projection dépasse 
les valeurs suivantes : 

— hi; > 2p/n selon Hoaglin &# Welsch (1978) ; 

— h;; > 3p/n pour p > 6 etn—p > 12 selon Velleman Ë Welsh (1981) ; 

— h;; > 0.5 selon Huber (1981). 
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Fig. 4.6. Exemple d’un point levier, figuré par la flèche, pour un modèle de 
régression simple. Quantification par h;; de la notion de levier. La ligne en 
pointillé représente le seuil de 3p/n et celle en tiret le seuil de 2p/n. 


Pour un modèle de régression simple dont le nuage de points est représenté 
sur la figure (4.6) le point désigné par une flèche est un point levier. Sa localisa- 
tion sur l’axe x est différente des autres points et son poids h;; est prépondérant 
et supérieur aux valeurs seuils de 2p/n et 3p/n. Cette notion de levier h;; cor- 
respond à l’éloignement du centre de gravité de la 4° ligne de X. Plus le point 
est éloigné, plus la valeur des h;; augmente. Remarquons que ce point est levier 
mais non aberrant car il se situe dans le prolongement de la droite de régression 
et donc son résidu sera faible. 

Les points leviers sont donc des points atypiques au niveau des variables ex- 
plicatives. Là encore il est bon de les repérer et de les noter, puis de comprendre 
pourquoi ces points sont différents : erreur de mesure, erreur d’enregistrement, 
ou appartenance à une autre population. Même quand ils ne sont pas influents, 
i.e. sans ces points les estimations ne changent pas ou très peu, on peut se po- 
ser la question de la validité du modèle jusqu’à ces points extrêmes. Peut-être 
aurait-on, avec plus de mesures autour de ces points, un modèle qui changerait, 
annonçant un modèle différent pour cette population ? Après mûre réflexion ces 
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valeurs pourront être éliminées ou conservées. Dans le premier cas aucun risque 
n’est pris au bord du domaine, quitte à sacrifier quelques points. Dans le second 
cas le modèle est étendu de manière implicite jusqu’à ces points. 

L'analyse des résidus permet de trouver des valeurs atypiques en fonction 
de la valeur de la variable à expliquer. L’analyse de la matrice de projection 
permet de trouver des individus atypiques en fonction des valeurs des variables 
explicatives (observations éloignées de la moyenne). D’autres critères vont com- 
biner ces deux analyses. 


4.3 Autres mesures diagnostiques 


La distance de Cook mesure l’influence de l’observation 4 sur l’estimation 
du paramètre B. Pour bâtir une telle mesure, nous considérons la distance entre 
le coefficient estimé B et le coefficient Ê que l’on estime en enlevant l’obser- 
vation ?, mais en gardant le même modèle et toutes les autres observations bien 
évidemment. Si la distance est grande, alors l’observation à influence beaucoup 
l'estimation de B, puisque la laisser ou l’enlever conduit à des estimations éloi- 
gnées. De manière générale, B est dans R?, une distance bâtie sur un produit 
scalaire s'écrit 


db, 8) = (8 — BY Q(Ë« — ), 


où Q est une matrice symétrique définie positive. De nombreux choix sont 
offerts en changeant Q. L’équation donnant une région de confiance simultanée 
(cf. 3.4, p. 56) que nous rappelons 


1 
po? 


RC, (8) = (sem: | (BB) (X'ANË 8€ fpn-nli = 0} 


permet de dire que dans 95 % des cas, la distance entre B et B (selon la matrice 
Q = X'X/p6*°) est inférieure à fyn-p(1— @). Par analogie, nous pouvons donc 
utiliser cette distance, appelée distance de Cook, pour mesurer l’influence de 
l’observation à dans le modèle. 


Définition 4.4 (Distance de Cook) 
La distance de Cook est donnée par 


(di — !B«)? 


CG = — 


1. 4 x 2 x 
(6 du BY (XX )(B( b) nu 
pô 
Il est cependant possible de la réexprimer de manière plus concise et plus simple 
à calculer comme 
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Une observation influente est donc une observation qui, enlevée, conduit à 
une grande variation dans l'estimation des coefficients, c’est-à-dire à une dis- 
tance de Cook élevée. Pour juger si la distance C; est élevée, Cook (1977) 
propose le seuil f,n-p(0.1) comme souhaitable et le seuil f,n-p(0.5) comme 
préoccupant. Certains auteurs citent comme seuil la valeur 1, qui est une ap- 
proximation raisonnable de f, n_p(0.5). 

Remarquons que la distance de Cook (deuxième définition) peut être vue 
comme la contribution de deux termes. Le premier t? mesure le degré d’adéqua- 
tion de l’observation y; au modèle estimé z!B, alors que le second terme qui est 
le rapport V(ÿ;)/ V(é;) mesure la sensibilité de l’estimateur 5 à l'observation 
i. La distance de Cook mesure donc deux caractères en même temps : le ca- 
ractère aberrant quand t; est élevé, et le caractère levier quand V(ÿ;)/ V(é:) = 
h;/1— h; est élevé. Les points présentant des distances de Cook élevées se- 
ront des points aberrants, ou leviers, ou les deux, et influenceront l’estimation 
puisque la distance de Cook est une distance entre B et Bu 

À l’image des points aberrants et leviers, nous recommandons de supprimer 
les observations présentant une forte distance de Cook. Si l’on souhaite tou- 
tefois absolument garder ces points, il sera très important de vérifier que les 
coefficients estimés et les interprétations tirées du modèle ne varient pas trop 
avec ou sans ces observations influentes. 

Si l’on revient au modèle de régression simple pour les points de la figure 
(4.6), nous avons représenté sur la figure (4.7) le nuage de points, les résidus 
studentisés et la distance de Cook. 
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Fig. 4.7. Exemple du point levier (numéro 51). Les points associés aux 8 plus 
grandes valeurs de la distance de Cook sont numérotés ainsi que leurs distances 
de Cook et leurs résidus studentisés (par VC). La droite en trait plein est la 
droite ajustée par MC. 


Nous voyons que des points admettant de forts résidus (points éloignés de 
la droite) possèdent une distance de Cook élevée (cas des points 4, 6, 12, 29, 
44 et 45). Mais les points leviers possèdent un rapport h;;/(1 — h;;) élevé, par 
définition. Le point 51 bien qu'ayant un résidu faible apparaît comme ayant 
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une distance de Cook relativement forte (la 8° plus grande). Ceci illustre bien 
que la distance de Cook opère un compromis entre points aberrants et points 
leviers. Notons encore une fois que le point 51 n’est ni influent ni aberrant, son 
résidu t, n’est pas élevé et il se situe dans le prolongement de l’axe du nuage, 
ce qui veut dire que, sans ce point, la droite ajustée par MC sera voisine et 
donc le résidu t, sera faible. Notons enfin que les seuils de la distance de Cook 
sont fpn-p(0.5) = 0.7 et le second f,n-»(0.1) = 0.11, qui figure en pointillé 
sur le graphique (4.7). Ici les distances de Cook semblent assez bien réparties 
au niveau hauteur et aucun point ne se détache nettement. 

En utilisant encore les mêmes 50 points, en remplaçant le point levier par 
un point franchement aberrant, mais non levier, nous voyons que ce nouveau 
point 51 est bien aberrant (fig. 4.8), son résidu t£, est très élevé. La distance 
de Cook, malgré la position de ce point 51 vers le milieu des x, est élevée et 
ceci uniquement à cause de son caractère aberrant. Bien entendu un point peut 
être à la fois levier et aberrant. 
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Fig. 4.8. Exemple du point fortement aberrant (numéro 51). Les points asso- 
ciés aux 8 plus grandes valeurs de la distance de Cook sont numérotés, ainsi 
que leurs distances de Cook et leurs résidus studentisés (par VC). La droite en 
trait plein est la droite ajustée par MC. 


Les seuils de la distance de Cook sont fyn-p(0.5) = 0.7 et fpn-p(0.1) = 
0.11, qui figure en pointillé sur le graphique (4.7). Ici la distance de Cook du 
point 51 se détache nettement, indiquant que ce point pourrait être éventuel- 
lement supprimé. Le seuil de f, n_#(0.5) semble assez conservateur. 


Une autre mesure d'influence est donnée par la distance de Welsh-Kuh. Si 
l’on reprend la définition de la distance de Cook pour l’observation ti, elle s’écrit 
comme (ÿ; — x Bt)? /&? à 1/p près. Ceci représente le carré de l’écart entre ÿ; 
et sa prévision ÿ} divisé par la variance estimée de l'erreur. 

Il faut donc utiliser un estimateur de o?. Si l’on utilise l’estimateur classique 
6?, alors une observation influente risque de « perturber » l'estimation 6?. Il 
est donc préférable d'utiliser CAE 
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Définition 4.5 (DFFITS) 

L'écart de Welsh-Kuh, souvent appelé DFFITS par les logiciels, est défini par 
Rii 

1h 


Wki=|t;] 


Cette quantité permet d'évaluer l’écart standardisé entre l’estimation bâtie sur 
toutes les observations et l’estimation bâtie sur toutes les observations sauf la 1°. 
Cet écart de Welsh-Kuh mesure ainsi l'influence simultanée d’une observation 
sur l'estimation des paramètres 3 et o?. Si l'écart de Welsh-Kuh est supérieur à 
2/p + 1/4Vn en valeur absolue, alors il est conseillé d’analyser les observations 
correspondantes. 

D'autres mesures diagnostiques sont données dans le livre d’Antoniadis et al. 
(1992, pages 36-40). En guise de remarque finale, la régression robuste est une 
alternative très intéressante si le problème des observations influentes s’avère 
délicat (Rousseeuw & Leroy, 1987). 


4.4 Effet d’une variable explicative 


4.4.1 Ajustement au modèle 


Nous désirons savoir si la modélisation de l’espérance de Y par XB, estimée 
par À B , est correcte. Le modèle est-il satisfaisant ou ne faudrait-il pas rajouter 
de nouvelles variables explicatives ou de nouvelles fonctions fixées des variables 
explicatives et lesquelles ? Dans ce paragraphe, nous nous posons la question 
de la qualité d'ajustement du modèle pour une variable explicative X; donnée, 
ce qui revient aux trois questions suivantes : 


1. cette variable X’; est-elle utile ? 


2. est-ce que cette variable agit linéairement sur la prévision de Ÿ ou faut-il 
introduire une transformation de cette variable f(X;) ? 


3. quelle transformation f(X;) est à introduire afin d'améliorer le modèle ? 


Pour répondre à ces questions, remarquons que l’on peut toujours utiliser 
les procédures de choix de variables (cf. chapitre suivant) et par exemple les 
tests entre modèles emboîtés : 

e si l’on se pose la question de l’utilité de la variable X; on peut tester 


Ho : B; —0 contre H: : B; Æ 0 


P 
Ho: E(Y)= ÿ BeXx contre Hi: E(Y)=Xf; 
k=1,k£j 


e si l’on se pose la question d’une transformation f(X;) notée X,.41 on peut 
tester 
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Ho : E(Y) — X6 contre H; : E(Y) —= XB + Bp+1Xp+1: 


Cependant, sans connaître a priori f(.), il est impossible d’effectuer le test. 
Ce paragraphe va proposer des outils graphiques permettant de répondre à ces 
trois questions rapidement, en conservant à l’esprit que la première question 
peut être résolue avec un test. 


4.4.2  Régression partielle : impact d’une variable 


Afin de connaître l'impact de la j° variable X'; lors d’une régression : 

1. Nous effectuons d’abord une régression avec les p — 1 autres variables. 
Les résidus obtenus correspondent alors à la part de Y qui n’a pas été 
expliquée par les p — 1 variables ; 

2. La seconde partie de l’analyse correspond alors à l’explication de ces 
résidus non pas par la variable X; mais par la part de la variable X; qui 
n’est pas déjà expliquée par les p — 1 autres variables. 


Tout d’abord supposons que le modèle complet soit vrai, c’est-à-dire que 
Y = XB+E. 


Afin d’analyser l’effet de la j° variable X;, partitionnons la matrice X en deux, 
une partie sans la j° variable que nous notons X3 et l’autre avec la 7° variable 
X; . 

Le modèle s'écrit alors 


RE — X56; + B;X; +E, 


où 3; désigne le vecteur B privé de sa j° coordonnée notée B;. Afin de quantifier 
l'apport de la variable X;, projetons sur l’orthogonal de S(X;). Cette équation 
devient 


PxiY = PxiX;6; + Pxi6;X; + Pyie 
PxiY = BjPxiX; + Pyie 
PxiY = BjPxiX;+n (4.2) 


Nous avons donc un modèle de régression dans lequel nous cherchons à expliquer 
une variable (aléatoire) PxiY par un modèle linéaire dépendant d’une variable 


fixe Pxi À; additionné à un bruit aléatoire n = Pxe. 


Cette équation suggère que si le modèle complet ‘est vrai, alors un modèle 
de régression univariée est valide entre Px;1Y et P;1X; et donc qu'il suffit 


n) J 
de dessiner Py;1Y en fonction de P$;1X; pour le vérifier graphiquement. Ce 
5, Ki 
graphique est appelé graphique de la régression partielle pour la variable X;. 
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1. Si les points forment une droite de pente |B;| > 0, alors le modèle pour 
la variable X'; est bien linéaire ; 

2. Si les points forment une droite de pente presque nulle, alors la variable 
X; n’a aucune utilité dans le modèle; 

3. Si les points forment une fonction non linéaire f, il sera alors utile de 
remplacer X; par une fonction non linéaire dans le modèle complet. 
Remarquons l’utilité de l’abscisse, qui est P,;1X; et non pas directement X;. 
Cette abscisse représente la projection de la variable X ; sur les autres variables 
explicatives X>, c’est-à-dire la partie de X; non déjà expliquée linéairement 
par les autres variables, ou autrement dit la partie de l'information apportée 
par X; non déjà prise en compte par le modèle linéaire sans cette variable. 
Cela permet donc de faire apparaître uniquement la partie non redondante de 
l'information apportée par X, pour l'explication linéaire de Y (cf. exercice 4.5). 


Proposition 4.1 (Régression partielle) 
Notons B; l’estimateur des moindres carrés de B; dans le modèle de régression 


simple (4.2). Notons B; la j° composante de B, l’estimateur des moindres carrés 
obtenu dans le modèle complet. Nous avons alors 


4.4.3 Résidus partiels et résidus partiels augmentés 


Le problème de l’utilisation du graphique précédent correspond au calcul 
des abscisses P,1X;. Afin de contourner ce problème et d'obtenir un graphique 


À 
facile à effectuer, nous définissons les résidus partiels : 


Définition 4.6 (Résidus partiels) 
Les résidus partiels pour la variable X; sont définis par 


EE, = + BiXs. (43) 


Le vecteur Ê correspond aux résidus obtenus avec toutes les variables et b; est 
la j° coordonnée de B estimateur des MC obtenu dans le modèle complet. 


Un graphique représentant X; en abscisse et ces résidus partiels en ordonnée 
aura, si le modèle complet est valide, une allure de droite de pente estimée 8; 
par MC. En effet, la pente de régression univariée estimée par MC est (cf. eq. 
1.4) 

ÉPX;) _ (EX;)+B(X5, X5) _ (PxiV,X;) + b(X5, X 5) _ÿ 


REX) (X5, X5) (X;, Xj) Li 


Il est en général préférable d’enlever l’information apportée par la moyenne 
commune à chacune des variables et de considérer aïnsi les variables centrées 
et les résidus partiels correspondants 


EE = Éé+yl+B;(X; - À;), 
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où X; est le vecteur de IR” ayant toujours la même coordonnée : 37°, ;/n. 

Les graphiques des résidus partiels sont à l’image de ceux des régressions 
partielles, ils comportent pour chaque variable X; en abscisse cette variable 
X; et en ordonnée les résidus partiels correspondants CR Si le modèle complet 
est vrai, le graphique montre une tendance linéaire et la variable X'; intervient 
bien de manière linéaire. Si par contre la tendance sur le graphique est non 
linéaire selon une fonction f(.), il sera bon de remplacer X; par f(X;). 

Le fait d'utiliser X; en abscisse pour les graphiques des résidus partiels per- 
met de trouver beaucoup plus facilement la transformation f(X;) que dans les 
graphiques des régressions partielles correspondants. Par contre, en n’enlevant 
pas à X; l'information déjà apportée par les autres variables, la pente peut ap- 
paraître non nulle alors que l'information supplémentaire apportée par X; par 
rapport à X; n’est pas importante. Ceci peut se produire lorsque X; est très 
corrélée linéairement à une où plusieurs variables de X;. Cependant, notons 
qu’une procédure de test ou de sélection de modèle tranchera entre le cas où 
X; est utile ou non. Si le but est de vérifier que la variable X; entre linéaire- 
ment dans le modèle et de vérifier qu'aucune transformation non linéaire f(X;) 
n’améliorera le modèle, il est alors préférable d'utiliser les résidus partiels. 

Des résultats empiriques ont montré que les résidus partiels augmentés (Mal- 
lows, 1986) sont dans cette optique en général meilleurs que les résidus partiels. 


Définition 4.7 (Résidus partiels augmentés) 
Les résidus partiels augmentés pour la variable X; sont définis par 

Ep = + jX; + pr À}, 
où EX = Ÿ*_Y et Ÿ*— (X|XŸ)à l'estimation par le modèle complet augmenté 
d’un terme quadratique X 541 = XŸ. 
On peut encore utiliser une autre version sans l’effet de la moyenne 


ÿ COS 


i=1 


ip = ++ SX; — À5) + âpai |(X5 — À) — 


Sir 


Nous renvoyons le lecteur intéressé par l’heuristique de ces résidus partiels à 
l’article de Mallows (1986). 


4.5 Exemple : la concentration en ozone 


Revenons à l’exemple de la prévision des pics d'ozone. Nous expliquons le 
pic d’ozone 03 par 6 variables : la teneur maximum en ozone la veille (03v), la 
température prévue par Méteo France à 6 h (T6), à midi (T12), une variable 
synthétique (la projection du vent sur l’axe est-ouest notée Vx) et enfin les 
nébulosités prévues à midi (Ne12) et à 15 h (Ne15). Nous avons pour ce travail 
n = 1014 observations. Pour valider notre modèle, nous pouvons commencer 
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par représenter les résidus studentisés en fonction du numéro d’observation, 
numéros qui sont dans l’ordre chronologique. 


mod.lin6v <- 1m(03"T6+T12+Ne12+Ne15+Vx+03v,data=ozone) 
plot(rstudent (mod.lin6v) ,pch=".",ylab="Résid studentisés par VC") 
abline(h=c(-2,2)) 

lines(lowess(rstudent (mod.lin6v))) 


Les résidus studentisés (fig. 4.9) font apparaître une structuration presque 
négligeable en forme de sinusoïde en fonction du numéro des observations, ou 
du temps, les observations étant rangées par date de mesure. Ceci peut paraître 
normal puisque nous avons des variables mesurées dans le temps et cette légère 
variation peut être vue comme une autocorrélation (éventuelle) des résidus. 


+ 85U 


Résidus studentisés par VC 


LION 


+ . Gil 
0 200 400 


Index 500 800 1000 
Fig. 4.9. Résidus studentisés par VC du modèle de régression à 6 variables 
explicatives. 


Comme nous sommes en présence de 1014 observations, il est normal qu’un 
certain nombre de résidus apparaissent en dehors de la bande (-2,2). Seules les 
3 observations franchement éloignées de l’axe horizontal (les numéros 611, 797 
et 850) peuvent sembler aberrantes. Ces observations sont donc mal expliquées 
par le modèle à 6 variables. Une analyse complémentaire sur ces journées pour 
mieux comprendre ces individus pourrait être entreprise : sont-ils dus à une er- 
reur de mesure, à une défaillance de l’appareillage, à une journée exceptionnelle 
ou autre ? Ces points sont mal prédits mais ne sont pas forcément influents et 
ne faussent donc pas forcément le modèle. Il n’y a donc pas lieu de les éliminer 
même si l’on sait qu'ils sont mal expliqués. 

Bien que nous n’utilisions pas l’hypothèse de normalité ici, nous pouvons 
tracer à titre d'exemple le graphique Quantile-Quantile. 


plot(mod.lin6v,which=2,sub="",main="") 
abline(0,1) 


Nous observons sur le graphique 4.10 que la normalité semble bien respectée, 
tous les points étant sur la première bissectrice. Nous apercevons encore les 
points aberrants numéros 611, 797 et 850. 
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Fig. 4.10. Q-Q plot pour le modèle à 6 variables explicatives. 


Représentons maintenant les points leviers et influents. 


plot(cooks.distance(mod.lin6v) ,type="h",ylab="Distance de Cook") 
## voir autres mesures diagnostiques pour les 3 seuils 

seuil1 <- qf(0.1,p,n-p) ; abline(h=seuili) 
plot(infl.ozone.app$infmat[,"hat"] ,type="h",col="grey",ylab="hii") 
seuil1 <- 3*xp/n ; abline(h=seuili,col=1,1ty=2) ; 

seuil2 <- 2*p/n ; abline(h=seuil2,col=1,1ty=3) 


En ce qui concerne les observations influentes (fig. 4.11), aucune observation 
ne montre une distance de Cook nettement supérieure aux autres et il ne semble 
pas y avoir d'observation très influente. De plus, le seuil f, n_#(0.1) = 0.4 est 
supérieur à toutes les observations. Au niveau des points leviers nous observons 
que beaucoup d'individus statistiques sont plus grands que le seuil indicatif de 
2p/n, 8 seulement sont au-dessus du seuil de 3p/n et enfin aucun n’est aux 
environs de 0.5. De manière plus générale aucune observation ne montre un h;; 
très différent des autres. En conclusion, nous conservons toutes les observations. 
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Fig. 4.11. Distance de Cook (a) et points leviers (b). 


Nous avons vu que le graphique d’ajustement global, résidus studentisés 
en fonction d’un indice, montre une légère oscillation. Cela peut être dû à 
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une autocorrélation des résidus, donc une mauvaise structure de variance des 
résidus, qui n’est donc pas diagonale : V(£)  a?1,. Cependant cela peut aussi 
être dû à une mauvaise modélisation de la moyenne. Nous allons donc considérer 
les graphiques des résidus partiels pour toutes les variables explicatives. 


7 7 5 —— — 
0 2 4 6 8 10 5 0 5 40 60 80 100 120 140 160 
Nel5 Vx O3v 


Fig. 4.12. Résidus partiels pour les 6 variables explicatives. Le trait continu 
représente le résumé lissé des données par le lisseur loess. 


Les graphiques des résidus partiels (fig. 4.12) pour les variables T6, Ne12, Ne15 
et 03v montrent qu'aucune transformation n’est nécessaire, les résidus partiels 
étant répartis le long de la droite ajustée (en pointillé). 

Pour la variable T12 on note que le nuage est réparti en deux sous-ensembles : 
avant 22 °C ou après. Chacun de ces deux sous-ensembles semble être réparti 
le long d’une droite de pente différente. Nous allons donc ajouter une variable 
qui va prendre la valeur 0 si T12< 22 et les valeurs (T12-22) si T12> 22. Le R? 
passe de 0.669 à 0.708. L’ajustement est donc grandement amélioré par cette 
variable. 

Pour la variable Vx nous retrouvons une légère tendance sinusoïdale autour 
de l’axe des abscisses, indiquant que la variable Vx semble avoir peu d'influence. 
Si l’on ajuste une sinusoïde et que l’on remplace la variable Vx par la fonction 
f(Vx) = —4.54cos{0.45(10.58 — Vx)}, le R? passe à 0.713. Cependant cette 
fonction ainsi que la fonction linéaire par morceau pour T12 dépendent des 
données et ne sont pas des fonctions fixées a priori avant le début de l’étude. 

Le graphique des résidus partiels est obtenu grâce aux commandes suivantes 
(les ordres étant identiques pour chacune des variables, nous ne donnons que 
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ceux concernant la variable 03v) : 


residpartiels <- resid(mod.linbv,type="partial") 

prov <- loess(residpartiels[,"03v"]"ozone.app$03v) 

ordre <- order (ozone.app$03v) 
plot(ozone.app$03v,residpartiels[,"O3v"],pch=".",ylab="",xlab="") 
matlines (ozone .app$03v[ordre] ,predict (prov) [ordre]l) 
abline(1lsfit(ozone.app$03v,residpartiels[,"O3v"]),1ty=2) 


Pour toutes les variables, les résidus partiels augmentés offrent exactement 
les mêmes représentations et ne sont donc pas représentés ici. 


4.6 Exercices 


Exercice 4.1 (Questions de cours) 
1. Lors d’une régression multiple, la somme des résidus vaut zéro : 
À. toujours ; 
B. jamais; 
C. cela dépend des variables explicatives utilisées. 
2. Les résidus studentisés sont-ils 
À. homoscédastique ? 
B. hétéroscédastique ? 
C. on ne sait pas ? 
3. Un point levier peut-il être aberrant ? 
A. Toujours; 
B. Jamais; 
C. Parfois. 
4. Un point aberrant peut-il être levier ? 
A. Toujours ; 
B. Jamais; 
C. Parfois. 
5. La distance de Cook est-elle basée sur un produit scalaire ? 
A. Oui; 
B. Non; 
C. Cela dépend des données. 


Exercice 4.2 (Lemme d’inversion matricielle) 
Soit M une matrice symétrique inversible de taille p X p et u et v de vecteur 
de taille p. Montrer que 


M=tuv M! 


MOD) MR, 
CHA) 1+uM-lv 


(4.4) 
Exercice 4.3 (fRésidus studentisés) 

Nous considérons la matrice du plan d'expérience X de taille n x p. Nous notons 
x; la i° ligne de la matrice X et X{;, la matrice X privée de la i° ligne, de taille 


(n — 1) x p. 
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1. Montrer que XX — X {y X(:) + mix! 
2. Montrer que X (Yo) = X'Y — xy. 
3. En vous servant de l’équation (4.4), montrer que 
1 
(XX) = (XX) + D A) mm AUX), 
où h est le terme courant de la matrice de projection sur S(X). 


4. Montrer que la prévision de l’observation x; vaut 


où 6() est l’estimateur de o dans le modèle privé de la i° observation, 
peuvent s’écrire sous la forme 


pe yi = Ÿ | 
ôt) V 1+m (XX) mi 


6. Sous l'hypothèse que £ + W(0,o?1,), quelle est la loi de t* ? 
Exercice 4.4 (Distance de Cook) 
Nous reprenons les notations et résultats des exercices précédents. 
1. Montrer que 


1 
1—h; 


By = B — (XX) 'œi(ue — xib). 


2. Montrer que la distance de Cook définie par 


Exercice 4.5 (Régression partielle) 
Démontrer la proposition (4.1). 


Chapitre 5 


Régression sur variables 
qualitatives 


5.1 Introduction 


Jusqu’à présent, les variables explicatives étaient quantitatives continues, or 
il arrive fréquemment que certaines variables explicatives soient des variables 
qualitatives. Dans ce cas, pouvons-nous appliquer la méthode des moindres 
carrés que nous venons de voir ? 


Reprenons l’exemple des eucalyptus, nous avons mesuré 1429 couples circonfé- 
rence-hauteur. Parmi ces 1429 arbres, 527 proviennent d’une partie du champ 
notée bloc A1, 586 proviennent d’une autre partie du champ notée bloc A2 
et 316 proviennent de la dernière partie du champ notée bloc A3. Le tableau 
suivant donne les 3 premières mesures effectuées dans chaque bloc : 


Tableau 5.1. Mesures pour 9 eucalyptus de la hauteur et la circonférence et 
du bloc (ht, circ et bloc). 


Individu ht | circ | bloc 
1 18.25 36 Al 
2 19.75 42 Al 
3 16.50 33 Al 


928 17.00 38 A2 
929 18.50 46 A2 
930 16.50 37 A2 
1114 17.75 36 A3 
1115 19.50 45 A3 
1116 17.25 36 A3 
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Nous avons dorénavant 2 variables explicatives : la circonférence et la pro- 
venance de l’arbre. Pouvons-nous effectuer une régression multiple ? Comment 
utiliser la variable bloc? Dans cet exemple simple, nous pouvons représenter 
les données avec en abscisse la circonférence, en ordonnée la hauteur et en 
couleur (par exemple) la provenance : 


30 40 50. 60 70 
CIrC 
Fig. 5.1. Nuage de points et régression simple pour chaque niveau de bloc. La 
provenance est représentée par un symbole (rond, triangle, +) différent. 


La provenance pourrait avoir un effet sur la hauteur mais cela est difficile à 
observer. Afin d'intégrer la variable bloc, il faut commencer par la recoder car 
les calculs ne peuvent pas être effectués avec la variable en l’état. Chaque moda- 
lité sera transformée en un vecteur d’indicatrice d'appartenance à la modalité. 
Cela donne 


Ai 
Ai 
Ai 
A2 
bloc—A—|A2| — À, 
A2 
A3 
A3 
A3 


Il 
OO 000O0O0MmhHE 
Se Er À ©6060 
h h hi © © © © © © 


[æ) 


Ce codage, appelé codage disjonctif complet, remplace donc une variable ad- 
mettant Î modalités en I variables binaires!. Nous pouvons déjà remarquer 
que la somme des vecteurs colonnes de cette matrice A4 est égale au vecteur 
1,. En effet un individu à admet obligatoirement une modalité et une seule et 
possède donc toujours un unique 1 sur la 4° ligne de À... 

Ce chapitre va traiter en détail l'analyse de la covariance?, une variable Y 
est expliquée par une (ou des) variable(s) continue(s) et une (ou des) variable(s) 


1Ces variables binaires sont appelées dummy variables en anglais, c’est-à-dire variables 
fictives. 
2Nous noterons aussi cette analyse par l’acronyme anglo-saxon ANCOVA. 
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qualitative(s). Puis nous présenterons rapidement l’analyse de la variance à un 
facteur (une variable Y est expliquée par une variable qualitative) et l’analyse 
de la variance à deux facteurs (deux variables qualitatives). 


5.2 Analyse de la covariance 


5.2.1 Introduction : exemple des eucalyptus 


L'analyse de la hauteur des arbres en fonction de la circonférence et de 
la provenance est un exemple classique d'analyse de la covariance. Afin de la 
mener à bien, il faut introduire la variable bloc. 

La démarche la plus naturelle consiste à effectuer trois régressions diffé- 
rentes, une pour chaque champ. Cela donne en termes de modélisation : 


Vi, A1 QA1 + VA1Ti,A1 T Ei A1 à = 1, Lg 527 bloc Al 
Vi, A2 A2 + VAT: A2 + Es 42 = 1,...,586 bloc A2 
Vi,A3 = GA3T 7VA3Ti,A3 Era Ei,A3 i = 1, en ,316 bloc A3, 


et de manière simplifiée : 


Yij = OQj + Yi; +éjti=l,...,n; champ j j = A1,A2, 43. (5.1) 


Pour chaque modèle, il suffit d'effectuer une régression simple. 

Cependant, imaginons que nous savons que la circonférence intervient de la 
même façon dans chaque parcelle, c’est-à-dire que la pente est identique d’un 
champ à un autre. Les droites de régression sont donc parallèles. Cela donne 
graphiquement : 


n | De 
[ail Dr 
e Pete 
[Qi ee 
o 2 
30 40 50 60 70 


Fig. 5.2. Trois droites de régression fictives parallèles. 


et en termes de modélisation : 


i=1,...,527 bloc Al 
i=1,...,586 bloc A2 
i=1,...,316 bloc A3. 


Vi, A1 QA1 + 9 Li,A1 T Es, A1 


Vi,A2 — A2 + 79 Li,A2 + Ei,A2 


Vi,A3 — A3 +79 Li,A3 T Ei,A3 
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Nous pouvons écrire de manière simplifiée : 
Vi, — À; +7 TLi,j + Ei,j ie 1,...,n, champ 3 j — A1, A2, 43. (5.2) 


Si nous savons que l’ordonnée à l’origine est la même pour chaque parcelle 
et que seule la pente change, nous obtenons graphiquement : 


30 40 50 60 70 


Fig. 5.8. Trois droites de régression fictives ayant la même ordonnée à l’origine. 


et en terme de modélisation : 
Vi,j — a + ;Ti,j + Ei,j À = 1,257; champ j 7 — A1, A2, A3. (5.3) 


Le coefficient + dans le modèle (5.2) est le même dans tous les blocs. Si 
nous effectuons trois régressions distinctes, comment trouverons-nous la même 
estimation de y? De même, comment allons-nous procéder pour obtenir le 
même estimateur de a dans chaque population en effectuant trois régressions 
distinctes dans le modèle (5.3)? Il semble raisonnable de n’effectuer qu’une 
seule régression mais avec des coefficients qui peuvent différer (ou non) selon 
les blocs. 


5.2.2 Modélisation du problème 


Nous traitons dans cette section le cas simple où nous disposons de deux 
variables explicatives : une variable quantitative notée X (dans l’exemple de 
leucalyptus X correspond à circ) et une variable qualitative notée À admet- 
tant Î modalités dont le codage disjonctif est notée A, (dans l'exemple de 
l’eucalyptus, la variable est bloc admettant 3 modalités et A, est alors une 
matrice de taille 1429 x 3). Nous noterons Xe la matrice composée de n lignes 
et 1 colonnes où la j° colonne de X, correspond à la valeur de X lorsque les 
individus appartiennent à la modalité j, cela correspond au produit terme à 
terme de X avec chaque colonne de À... 
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36 36 0 0 
42 42 0 0 
33 33 0 0 
38 0 38 0 
circ=X = |46| — X;=1|0 46 0 
37 0 37 0 
36 0 0 36 
45 0 0 45 
36 0 0 36 


La matrice X, correspond à l’interaction entre X et À. Pour chaque niveau 
j de la variable qualitative, nous observons n; individus et les valeurs cor- 
respondantes de la variable X sont notées x1,,:-:,2,,;. De la même manière 


nous notons les valeurs de la variable à expliquer y15,:-: ,Yn,j. Le nombre total 


; I 
? | — n 
d'observations vaut n = D; nu. 


Ecrivons matriciellement les trois modélisations proposées. 

1. Soit nous considérons pour chaque niveau de la variable qualitative un 
modèle de régression (modèle 5.1), cela revient à analyser l'interaction 
entre les variables X et À et le modèle s’écrit alors 


Y = Aa+Xc7+E. (5.4) 


Dans cette modélisation, nous avons 7 paramètres à estimer (a et 7 sont 
des vecteurs à 3 coordonnées) et o est un scalaire correspondant à l’écart- 
type du bruit. 


2. Soit nous considérons que la variable X intervient de la même façon quels 
que soient les niveaux de la variable À (la pente de la droite est toujours 
la même) et la variable À intervient seulement sur le niveau (l’ordonnée 
à l’origine de la droite de régression). Le modèle s’écrit alors 


Y = Aa+Xy+e. (5.5) 


Dans cette modélisation, nous avons 5 paramètres à estimer (a est un 
vecteur à 3 coordonnées) et 7 et o sont des scalaires. Remarquons qu'ici 
l’interaction avec À ne se fait plus avec X, les pentes étant identiques. 
Cependant les ordonnées à l’origine étant différentes selon les niveaux de 
À, il subsiste une interaction entre À et la variable 1 de la régression 
(appelée en anglais et dans les logiciels intercept). 


3. Soit nous considérons que la variable À intervient uniquement sur la pente 
et donc que l’ordonnée à l’origine ne change pas. Le modèle s’écrit 


Y =la+X.7y+e. (5.6) 


Dans cette modélisation, nous avons 5 paramètres à estimer (+ est un 
vecteur à 3 coordonnées) et a et o sont des scalaires. 
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Le choix du modèle (5.4) ou (5.5) ou (5.6) dépend du problème posé. Nous 
préconisons de commencer par le modèle le plus général (5.4) puis, si les pentes 
sont les mêmes, de passer au modèle simple (5.5) ou, si les ordonnées à l’origine 
sont les mêmes, de passer au modèle simple (5.6). Les modèles étant emboîtés, 
il est possible de tester un modèle contre un autre. 

En pratique, avant d'effectuer une modélisation, il est préférable de repré- 
senter le nuage des points (X,YŸ) en couleur, où chaque couleur représente une 
modalité de la variable A. Cette représentation permet de se faire une idée des 
effets respectifs des différentes variables. 


Remarque 

Si nous additionnons toutes les colonnes de À; nous obtenons le vecteur 1, 
la matrice (1, A.) n’est pas de plein rang. De la même manière, si nous ad- 
ditionnons toutes les colonnes de X,, nous obtenons la variable X, la matrice 
(X, X,) n’est pas de plein rang. Dans ces cas, l'hypothèse H1 n’est pas vérifiée. 
Le projeté Ÿ sur l’espace engendré par les colonnes de (1, Ac, X, X4) existe 
et est unique mais son écriture en fonction des vecteurs (vecteurs colonnes) 
engendrant l’espace ne l’est pas. Nous aborderons dans la partie analyse de la 
variance de ce chapitre les différentes manières de procéder. 


Les trois modèles que nous venons de voir peuvent s’écrire de manière générique 
Y = XB+E, 

où X est de taille respective n x 21 (5.4), et n x (1 + 1) dans les autres cas. 

Nous avons la propriété suivante (cf. exercice 5.2) : 


Proposition 5.1 
L'’estimateur des MC de B est obtenu dans le modèle (5.4) en effectuant une 
régression simple pour chaque niveau i de la variable qualitative A. L’estimateur 
des MC de o? est 


Ni 


T 
DD vis — da) 


j=1 i=1 


Remarquons que, même si l’estimateur des MC de 8 peut être obtenu en 
effectuant une régression simple pour chaque niveau À de la variable À, l’analyse 
de la covariance suppose l'égalité des variances des erreurs pour chacun des 
niveaux À de la variable À. Il n’en va pas de même pour les 7 régressions 
simples où les modèles ne sont pas contraints à avoir la même variance et où 
l’on aura donc 1 variances d’erreurs différentes. 


5.2.3 Hypothèse gaussienne 

Sous l’hypothèse de normalité des résidus, nous pouvons tester toutes les 
hypothèses linéaires possibles. Les modèles (5.5) et (5.6) sont emboîtés dans le 
modèle général (5.4). Un des principaux objectifs de l’analyse de la covariance 


Régression sur variables qualitatives 


109 


est de savoir si les variables explicatives influent sur la variable à expliquer. 
Les deux premiers tests que nous effectuons sont : 


1. le test d'égalité des pentes 


Eli, MES eh VE (6,5) : %i À V5. 
Cela revient à tester le modèle (5.5) contre (5.4); 
2. le test d'égalité des ordonnées à l’origine 
Ho : =: —=ar-a Hi : i,j):af#a;, 


Cela revient à tester le modèle (5.6) contre (5.4). 


La statistique de test vaut donc (théorème 3.2 p. 63) : 


mp = ol?/E 1) 
(= ŸI2/n- 0 


L'hypothèse H4 sera rejetée en faveur de H; si l’observation de la statistique 
Fest supérieure à fr_1n-1(1 — «), la valeur «à étant la probabilité de rejeter 
à tort Ho ou erreur de première espèce et nous conclurons à l’effet du facteur 
explicatif. 

Pour résumer, nous partons donc du modèle complet 


Y = Aa+Xc.y+E, 
et acceptons 
— soit 
Y = Aa+X7y+e. 


Nous pouvons alors soit tester la nullité de la pente (la variable quanti- 
tative X n’apporte pas d’information quant à l’explication de la variable 
Y) soit l'égalité des différentes à; (la variable qualitative À n’apporte pas 
d’information quant à l’explication de la variable Y) ; 

— soit 


Y=la+Xe7y+Ee. 
Nous pouvons alors tester l'égalité des pentes (la variable qualitative À 


n'apporte pas d’information quant à l’explication de la variable Y). 


5.2.4 Exemple : la concentration en ozone 


Nous souhaitons expliquer la concentration en ozone 03 en fonction de la 
température T12 et de la direction du vent vent, variable qualitative prenant 
4 modalités : NORD, SUD, EST et OUEST. 
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Nous commençons cette étude par l’analyse graphique. 


Fig. 5.4. Nuage de points et régression simple pour chaque niveau de vent. Le 
niveau de vent est représenté par un symbole (rond, triangle, +, carré) différent. 


Les pentes des différentes régressions sont différentes, il semble que la modéli- 
sation de la concentration de l’ozone en fonction de la température dépende de 
la variable vent. Pour obtenir le graphique (5.4), nous utilisons les commandes 
suivantes : 


ozone <- read.table("ozone.txt",header=T,sep=";") 

plot(ozonel,"T12"] ,ozonel,1],pch=as.numeric(ozonel ,"vent"]), 
col=as.numeric(ozonel,"vent"])) 

ai <- 1lm(03"T12,data=ozone[ozonel,"vent"]=="EST" ,]) 

a2 <- 1m(03"Ti2,data=ozone[ozonel,"vent"]=="NORD",]) 

a3 <- 1m(03"T12,data=ozone[ozonel,'"vent"]=="QOUEST" ,]) 

a4 <- 1m(03"T12,data=ozone[ozonel,"vent"]=="SUD",]) 

abline(ai,col=1) 

abline(a2,col=2) 

abline(a3,col=3) 

abline(a4,col=4) 


Pour écrire sous GNU-R le modèle avec interaction (5.4), nous écrivons 
modib <- Im(formula = 03 * -1 + vent + Ti2:vent, data = ozone) 


Nous enlevons la constante en écrivant —1. Ensuite il faut conserver une or- 
donnée à l’origine différente pour chacune des modalités du vent, ce qui est 
représenté par le facteur vent (ou une interaction de la variable 1 avec vent). 
Ensuite nous ajoutons un coefficient directeur différent pour chacune des mo- 
dalités du vent, ce qui est représenté par la variable T12 en interaction avec 
vent. 

Cela donne : 
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summary (mod1b) 
Coefficients: 

Estimate Std. Error t value Pr(>|tl) 
ventEST 45.6090 13.9343 3.273 0.002133 *xx* 
ventNORD 106.6345 28.0341 3.804 0.000456 *x*%* 
ventOUEST 64.6840 24.6208 2.627 0.011967 * 
ventSUD -27.0602 26.5389 -1.020 0.313737 
ventEST:T12 2.7480 0.6342 4.333 8.96e-05 *x*x* 
ventNORD:T12 -1.6491 1.6058 -1.027 0.310327 
ventOUEST :T12 0.3407 1.2047 0.283 0.778709 
ventSUD:T12 5.3786 1.1497 4.678 3.00e-05 *x** 


Si, dans l'écriture du modèle, la constante est conservée, le logiciel va prendre 
comme cellule de référence la première cellule (définie par ordre lexicogra- 
phique). Cela donne : 


modi <- im(formula = 03 * vent + Ti2:vent, data = ozone) 
summary (mod1) 
Coefficients: 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 45.6090 13.9343 3.273 0.00213 ** 


ventNORD 61.0255 31.3061 1.949 0.05796 . 
ventOUEST 19.0751 28.2905 0.674 O0.50384 
ventSUD -72.6691 29.9746 -2.424 0.01972 * 
ventEST:T12 2.7480 0.6342 4.333 8.96e-05 *x*x* 
ventNORD:T12 -1.6491 1.6058 -1.027 0.31033 
ventOUEST:T12 0.3407 1.2047 0.283 0.77871 
ventSUD:T12 5.3786 1.1497 4.678 3.00e-05 *xxx* 


Les coefficients des ordonnées à l’origine sont des effets différentiels par 
rapport à la cellule de référence (ici ventEST), exemple 61.02+45.60—106.62 
valeur de ventNord dans l'écriture précédente. 

Le modèle avec une seule pente (5.5) peut s’écrire 


mod2 <- Im(formula = 03 ” vent + T12, data = ozone) 
mod2b <- Im(formula = 03 * -1 + vent + T12, data = ozone) 


Le modèle avec une seule ordonnée à l’origine (5.6) peut s’écrire 
mod3 <- Im(formula = 03 ” vent:T12, data = ozone) 


Choisissons la meilleure modélisation : 
1. égalité des pentes : nous effectuons un test entre les modèles (5.5) et 
(5.4) grâce à la commande 
anova(mod? ,mod1) 


Analysis of Variance Table 
Model 1: 03 © T12 + vent 
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Model 2: 03 ” vent + Ti2:vent 


Res .Df RSS Df Sum of Sq F  PrOF) 
1 45 12612.0 
2 42 9087.4 3 3524.5 5.4298 0.003011 *x* 


Nous concluons donc à l’effet du vent sur les pentes comme nous le sug- 
gérait la figure 5.4. Nous aurions obtenu les mêmes résultats avec mod2b 
contre modl, ou mod? contre mod1b ou encore mod2b contre mod1b; 


2. égalité des ordonnées à l’origine : nous effectuons un test entre le 
modèle (5.6) et (5.4) grâce à la commande 


anova(mod3,mod1) 

Analysis of Variance Table 
Model 1: 03 ” vent :T12 

Model 2: 03 ” vent + Ti2:vent 


Res .Df RSS Df Sum of Sq F PrOF) 
1 45 11864.1 
2 42 9087.4 3 2776.6 4.2776 0.01008 * 


Nous concluons donc à l'effet du vent sur les ordonnées à l’origine comme 
nous le suggérait la figure 5.4. 


Enfin le graphique de résidus (fig. 5.5) obtenu avec 
plot (rstudent (mod2)"fitted(mod2) ,xlab="ychap",ylab="residus") 


ne fait apparaître ni structure ni point aberrant. 
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Fig. 5.5. Résidus studentisés du modèle 1. 


Par contre, si on analyse la structure des résidus par modalité de Vent grâce à 
la commande 


xyplot (rstudent (mod2)"fitted(mod2) |vent ,data=ozone,ylab="residus") 


on constate une structuration des résidus pour la modalité SUD. Cependant 
cette structuration n’est constatée qu'avec 7 individus, ce qui semble trop peu 
pour que cette conclusion soit fiable. 
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Fig. 5.6. Résidus studentisés du modèle 1 (ou 1b) par niveau de vent. 


Remarque 

Pour l’exemple de l’ozone, nous conservons donc le modèle complet. Il faut faire 
attention à l'écriture du modèle en langage « logiciel ». L'écriture logique du 
point de vue du logiciel consiste à écrire 


mod <- Im(formula = 03 * vent + T12 + Ti2:vent, data = ozone) 


En effet, nous utilisons bien les 3 variables vent, T12 et leur interaction. En 
écrivant de cette manière, la matrice X du modèle est composée de 1, A;, T12 
et de T12,. Cette matrice n’est pas de plein rang. Le logiciel, pour pouvoir 
inverser cette matrice, doit imposer des contraintes (que nous verrons plus en 
détail dans la suite de ce chapitre). Le logiciel R va prendre comme cellule de 
référence la première cellule (définie par ordre lexicographique), SAS la dernière 
et calculer des effets différentiels par rapport à cette cellule. Sur l’exemple de 
l’ozone la cellule de référence va être ventEST et nous obtenons 


modO <- Im(formula = 03 ” vent +T12 + Ti2:vent, data = ozone) 
summary (mod0) 
Coefficients: 

Estimate Std. Error t value Pr(>|tl) 
(Intercept) 45.6090 13.9343 3.273 0.00213 ** 
ventNORD 61.0255 31.3061 1.949 0.05796 . 
ventOUEST 19.0751 28.2905 0.674 0.50384 
ventSUD -72.6691 29.9746 -2.424 0.01972 * 
T12 2.7480 0.6342 4.333 8.96e-05 *x*xx* 
ventNORD:T12 -4.3971 1.7265 -2.547 0.01462 * 
ventOUEST:T12 -2.4073 1.3614 -1.768 0.08429 . 
ventSUD:T12 2.6306 1.3130 2.004 0.05160 . 
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Intercept et T12 sont bien les valeurs de l’ordonnée à l’origine et de la pente 
pour le vent d’est. 


5.2.5 Exemple : la hauteur des eucalyptus 

Nous commençons par le modèle complet obtenu grâce à la commande 
m.complet=lm(ht”bloc-1+bloc:circ,data=eucalypt) 
qui correspond au modèle 

Yi = Qj+ Yi; +; =1,...,n; champ ÿ j— A1,A42, 43, 


puis nous estimons les paramètres dans le modèle admettant une pente com- 
mune quelle que soit l’origine des eucalyptus 


Yi, — À; +7 Li,j + Ei,j à = 1,...,n; champ 1 l . Al, 42, 43, 
grâce à la commande 
m.pente=-m(ht”bloc-i+circ,data=eucalypt). 
Nous estimons également les paramètres dans le modèle où nous supposons que 
l’origine de l’arbre influence la pente uniquement 
Yij = A+ yjtij +Eij =1l,...,n; champ 7j j= A1,A2, 43, 
via la commande 
m.ordonne=lm(ht"bloc:circ,data=eucalypt). 
Le second et le troisième modèles sont emboîtés dans le premier. Nous pouvons 
tester 
1. l’égalité des pentes 
anova(m.pente,m.complet) 
Analysis of Variance Table 


Model 1: ht ®” bloc - 1 + circ 
Model 2: ht ” bloc - 1 + bloc:circ 


Res .Df RSS  Df Sum of Sq F PrCF) 
1 1425 2005.90 
2 1423 2005.05 2 0.85 0.3007 0.7403 


Nous conservons le modèle avec une seule pente. 
2. l’égalité des ordonnées 


anova(m.ordonne ,m.complet) 
Analysis of Variance Table 
Model 1: ht ” bloc:circ 
Model 2: ht ” bloc - 1 + bloc:circ 
Res .Df RSS  Df Sum of Sq F PrCF) 
1 1425 2009.21 
2 1423 2005.05 2 4.16 1.4779 0.2285 
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Nous conservons le modèle avec une seule ordonnée à l’origine. 


Nous avons donc le choix entre les 2 modèles 


j = A1, A2, 43, 
j = A, A2, 43. 


Vij = A+ Vjli,j + Ei,j i=1,...,n; champ j 


Qj + YTi,j + Ei,j .,N;j Champ)j 
Ces modèles ne sont pas emboîtés. Cependant nous estimons le même nombre 
de paramètres (4) et nous pouvons donc comparer ces modèles via leur ÆR?. 
Nous choisissons le modèle avec une pente. Pour terminer cette étude, nous 
comparons le modèle retenu avec le modèle de régression simple, c’est-à-dire le 


modèle où l’origine n’intervient pas 


Vi,j —= a + Ti; + Eij à — den champ j j=A,B,C. 
m.simple=lm(ht”"circ,data=eucalypt) 
anova(m.simple,m.pente) 
Analysis of Variance Table 
Model 1: ht circ 
Model 2: ht ” bloc - 1 + circ 
Res .Df RSS  Df Sum of Sq F  PrCF) 


1 1427 2052.08 


2 1425 2005.90 2 46.19 16.406 9.03e-08 *xxx 


Nous conservons le modèle avec des ordonnées différentes à l’origine selon le bloc 
mais une même pente. Pour terminer cette étude, il faut analyser les résidus 
studentisés. 
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Fig. 5.7. Résidus studentisés du modèle avec des pentes identiques. 


116 


Régression - Théorie et applications 


5.3 Analyse de la variance à un facteur 


5.3.1 Introduction 


Nous modélisons la concentration d'ozone en fonction du vent (4 secteurs 
donc 4 modalités). Dans le tableau suivant figurent les 10 premières lignes du 
tableau de données. 


Tableau 5.2. Tableau des données brutes. 


individu | O3 
64 
90 
79 
81 
88 
68 

139 
78 

114 
42 


s 
Ë 
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en 
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La première analyse à effectuer est une représentation graphique des don- 
nées. Les boîtes à moustaches (boxplots) de la variable Ÿ par cellule semblent 
les plus adaptées à notre analyse. 


EST NORD OUEST SUD 


Fig. 5.8. Boxplot de la variable vent (4 modalités). 


Au vu de ce graphique, il semblerait que le vent ait une influence sur la valeur de 
la concentration d’ozone. La concentration est plus élevée en moyenne lorsque 
le vent vient de l’EST et au contraire moins élevée lorsque le vent vient de la 
mer (NORD et OUEST). Afin de préciser cette hypothèse, nous allons construire 
une analyse de la variance à un facteur explicatif : le vent. 
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5.3.2 Modélisation du problème 


Dans ce cas simple, nous avons une variable explicative et une variable à ex- 
pliquer et nous voulons expliquer la concentration d’ozone par le vent. Ce cas est 
appelé analyse de variance® à un facteur, qui est la variable qualitative explica- 
tive. Nous remplaçons la variable À par son codage disjonctif complet, c’est-à- 
dire que nous remplaçons le vecteur À par 1 = 4 vecteurs Lion, Lsun, Lesr, Louesr 
indiquant l’appartenance aux modalités NORD, SUD, EST ou OUEST. Ces quatre 
vecteurs sont regroupés dans la matrice A4 = (Iwor, Lsup, Lesr, Louesr). Le mo- 
dèle de régression s’écrit alors sous forme matricielle 


Y = ul + Aa+e. (5.7) 


La variable qualitative À engendre une partition des observations en 1 groupes 
(ici 4) souvent appelés cellules. La ï cellule est constituée des n; observations 
de la variable à expliquer Y admettant le caractère à de la variable explicative. 
Nous avons au total n observations avec n — NA ni. Les données sont ainsi 
regroupées en cellules selon le tableau suivant : 


Tableau 5.3. Tableau des données brutes regroupées par cellule. 


Vent | NORD | SUD | EST | OUEST 
90 68 64 88 
O3 81 114 | 79 42 
78 139 


Classiquement, en analyse de la variance, on utilise des tableaux de la forme 
(5.3) de préférence au tableau de la forme (5.2). Dans le tableau (5.3), la no- 
tation des n individus ne se fait pas classiquement de 1 à n. En effet, doit-on 
lire l’ordre des individus dans le sens des lignes du tableau ou dans le sens des 
colonnes ? Par convention, la valeur y;; correspond au j° individu de la cellule 
i. Les individus ne seront donc plus numérotés de 1 à n mais suivant le schéma 
(1,1), (1,2), -.-, (1,n), (2,1), (2,2), -::, (1,1), --., (Z,nr) pour bien insister 
sur l’appartenance de l'individu à la modalité 4 qui varie de 1 à . 


Le modèle précédent 
yi = Hi + A1 + Q2 A0; + 3 A3; + a Aai + Ei, 
s'écrit alors avec ces notations 
Yij = U + + Eij. 
Revenons à l'écriture matricielle 
Y = yul+Aa+e 
= XP+E. 


3Nous utiliserons aussi l’acronyme anglo-saxon ANOVA (analysis of variance) qui est très 
répandu en statistiques. 
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Si nous additionnons toutes les colonnes de À, nous obtenons le vecteur 1, 
la matrice X — (1, A.) n’est pas de plein rang et l'hypothèse H1 n’est pas 
vérifiée. Remarquons que cela entraîne que (1, A.)'(1, Ac) n’est pas de plein 
rang et nous ne pouvons pas calculer son inverse directement. Nous ne pouvons 
donc pas appliquer directement au modèle (5.7) les résultats des trois chapitres 
précédents. 


Peut-on estimer { et a ou plus exactement peut-on déterminer w 
et a de manière unique ? 
En termes statistiques cette question devient : est-ce que le modèle est identi- 
fiable ? Pour répondre à cette question, nous pouvons soit utiliser un contre- 
exemple, soit quelques notions d’algèbre linéaire. 


e Posons ji = u + 1024 et &; = @; — 1024 pour à = 1,--- ,1, nous avons alors 
Yiÿ = + +Ei = + + Es. 


Deux valeurs différentes des paramètres donnent les mêmes valeurs pour 
Y, donc le modèle est non identifiable. En conséquence, nous ne pouvons 
pas estimer sans biais 4 ou les a;; u et a; peuvent prendre des valeurs 
arbitrairement petites ou grandes sans que cela ne change Y (SAS met alors 
un B devant la valeur des estimateurs). 

e D'un point de vue d’algèbre linéaire, la matrice X n’est pas de plein rang, 
c’est-à-dire que le noyau de X, noté ker(X) = {+ € R? : X7y = 0} est diffé- 
rent de {0}. Choisissons un élément du noyau, 3}, nous avons alors X6î — 0. 
Considérons GB, le vecteur inconnu de coefficients solution du modèle Y — 
XB+e,0or Xi = 0, nous avons également Y = XG+e+X/6 = X(3+61)+e. 
Le vecteur 6 + GŸ est donc également solution et il n’y a donc pas unicité. 


Identifiabilité et contraintes 


Afin d'obtenir des estimateurs uniques, ou de façon équivalente un modèle 
identifiable, la méthode la plus classique consiste à se donner des contraintes. 
D’autres méthodes peuvent aussi être utilisées et nous invitons le lecteur inté- 
ressé à se reporter au paragraphe 5.6. Ici nous aurons besoin d’une contrainte 
linéaire sur les coefficients de la forme A a;5; = 0 où les {a;} sont à choisir. 
Avec cette contrainte vérifiée, une fois estimés p — 1 = 1 coefficients, le dernier 
se déduit des autres grâce à la contrainte. 

Ces contraintes linéaires sont appelées contraintes identifiantes et voici les 
plus classiques : 


e Choisir u = 0, cela correspond à supprimer la colonne 1 et donc poser 
X = À; 

e Choisir un des a; = 0, c’est-à-dire que la cellule à sert de cellule de référence 
(SAS ou GNU-R) : 
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e Choisir ÿn;a; = 0, la contrainte d’orthogonalité. Lorsque le plan est équi- 
libré (les n; sont tous égaux), cette contrainte devient Sa; = 0; 

e Choisir j'a; = 0, contrainte qui est parfois utilisée par certains logiciels. 
Cette contrainte représente l’écart au coefficient constant u. Remarquons 
toutefois qu’à l’image de la régression simple, le coefficient constant y n’est 
pas en général estimé par la moyenne empirique générale ÿ, sauf si le plan 
est équilibré. 


5.3.3 Estimation des paramètres 


Proposition 5.2 
Soit le modèle d'analyse de la variance à un facteur 


Vij = H + + Es. 


1. Sous la contrainte y = 0, qui correspond à yij = @i + €, les estimateurs 
des moindres carrés des paramètres inconnus sont : 


Les à; correspondent à la moyenne de la cellule. 


2. Sous la contrainte 1 = 0, qui correspond à y55 = p + @i + €;;, les esti- 
mateurs des moindres carrés des paramètres inconnus sont : 


B=ÿ et i=ÿi-Y. 
La première cellule sert de référence. Le coefficient f est donc égal à la 
moyenne empirique de la cellule de référence, les à; correspondent à l’effet 
différentiel entre la moyenne de la cellule à et la moyenne de la cellule de 
référence. 


3. Sous la contrainte D nia; = 0, qui correspond à yij = ph + @i + ei, les 
estimateurs des moindres carrés des paramètres inconnus sont : 


B=Y et &i 7. 
L’estimateur de la constante, noté j1, est donc la moyenne générale. Les 


à; correspondent à l'effet différentiel entre la moyenne de la cellule à et 
la moyenne générale. 


4. Sous la contrainte Sa; = 0, qui correspond à y:j = pu + œi + e;;, les 
estimateurs des moindres carrés des paramètres inconnus sont : 


Les à; correspondent à l’effet différentiel entre la moyenne empirique de 
la cellule à et la moyenne des moyennes empiriques. Lorsque le plan est 


120 


Régression - Théorie et applications 


déséquilibré, les à; sont toujours les écarts à 1, cependant ce dernier n’est 
pas estimé par la moyenne générale empirique, mais par la moyenne des 
moyennes empiriques. 


Dans tous les cas, o? est estimé par 


&? = ne 1 = 1 (Vis — Gi)? 
n—1I | 


La preuve est à faire en exercice (cf. exercice 5.3). 


5.3.4 Interprétation des contraintes 


Il est intéressant de visualiser ces différentes modélisations sur un graphique. 
Pour ce faire, nous considérons un facteur admettant deux modalités. 


EY EY EY 
Mi L_— H + OL - —— H— a 
É 
0 a 
Le 
M E---— + ---—— + Qt - - - — 
+ ++ + 
A1 A A1 À A1 À 


Fig. 5.9. Modélisations selon les contraintes sur les paramètres. 


La premier graphique à gauche représente les espérances m1 et m2 dans chaque 
cellule, ce qui correspond à 4 = 0. Le second graphique représente la contrainte 
D, @ = 0. Rappelons que si le plan est équilibré cette contrainte revient à 
J'irai = 0. Ici x représente la moyenne générale et les à sont les effets 
différentiels. Le troisième graphique représente la contrainte a; = 0, une cellule 
est prise comme cellule de référence. 


5.3.5 Hypothèse gaussienne et test d’influence du facteur 


Afin d'établir des intervalles de confiance pour ces estimateurs, nous devons 
introduire l'hypothèse de normalité des erreurs €, notée H3 : & = N'(0, o?). 

Grâce à cette hypothèse, nous pouvons également utiliser les tests d’hypo- 
thèses vus au chapitre 3. Un des principaux objectifs de l’analyse de la variance 
est de savoir si le facteur possède une influence sur la variable à expliquer. Les 
hypothèses du test seront alors : 


Ho: =@2=:..—a;=0 contre Hi : (4,5) tel que a; # à;. 
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Le modèle sous H, peut s’écrire encore sous la forme suivante Yi; = u+E€;;. 
Dans ce cas-là nous sommes en présence d’un test entre deux modèles dont 
l'un est un cas particulier de l’autre (section 3.6.2, p. 61). La statistique de test 
vaut donc (théorème 3.2 p. 63) 


I = 0/1) 
= ŸI2/n- 0) 


Il faut calculer les estimations des paramètres du modèle sous H5. Notons A 
la projection orthogonale de Y sur la constante et nous avons donc 


I 

IP - SI = Dm 2), (5-8) 
To ans 

PE = EYE (5.9) 


Pour tester l’influence de la variable explicative, nous avons alors le théorème 
suivant. 


Théorème 5.1 

Soit un modèle d'analyse de la variance à un facteur. Nous souhaitons tester 
la validité d’un sous-modèle. Notons l'hypothèse nulle (modèle restreint) H : 
Qi = 2 =": = ar = 0 qui correspond au modèle y;; = ui + E;; et l'hypothèse 
alternative (modèle complet) H1 : 2(i,5) tel que à; Æ a; qui correspond au 
modèle complet yij = pi + Qi + Ej. 

Pour tester ces deux hypothèses nous utilisons la statistique de test ci-dessous 
F qui possède comme loi sous H : 


I NS 

… Dia i(Ui — ÿ) ÿ ne à 
< I Ni — ms 

Di DAT —g} Î-1 


L'hypothèse Ho sera rejetée en faveur de Hi si l’observation de la statistique 
F est supérieure à fr-1n-1(1 — &), la valeur à étant la probabilité de rejeter 
à tort Hj ou erreur de première espèce et nous conclurons alors à l’effet du 
facteur explicatif. 


Se Filin-t: 


La preuve de ce théorème se fait facilement. Il suffit d'appliquer le théorème 
3.2 p. 63 avec l'écriture des normes données en (5.8) et (5.9). Ces résultats sont 
en général résumés dans un tableau dit tableau d’analyse de la variance. 
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Tableau 5.4. Tableau d'analyse de la variance. 


variation ddl SC CM valeur du F Pr(> F) 
x = SCA CMA 
— = _ 2 = 
facteur 1-1 SCA=|Y -Y| CMA 1) CNR 
résiduelle n—1 SCR=|Y -Ÿ|? CMR= en 


La première colonne indique la source de la variation, la seconde le degré de 
liberté associé à chaque effet. La somme des carrées (SCR) est rappelée dans 
le tableau ainsi que le carré moyen (CM) qui par définition est la SCR divisée 
par le ddl. 

Conclusion 

— En général, lors d’une analyse de la variance, nous supposons l’hypothèse 
de normalité car nous nous intéressons à l’effet du facteur via la question 
« l'effet du facteur est-il significativement différent de 0? ». Le tableau 
d'analyse de la variance répond à cette question. 

— Il faut représenter les résidus estimés afin de vérifier les hypothèses. Une 
attention particulière sera portée à l'égalité des variances dans les cellules, 
hypothèse fondamentale de validité des tests entrepris. Les tests F utilisés 
sont relativement robustes à la non-normalité dans le cas où la distribution 
est unimodale et peu dissymétrique. 

— Une investigation plus fine peut être ensuite entreprise en testant des 
hypothèses particulières comme la nullité de certains niveaux du facteur. 
Bien évidemment, après avoir choisi une contrainte identifiante, nous pou- 
vons nous intéresser aux coefficients eux-mêmes en conservant à l’esprit 
que le choix de la contrainte a une influence sur la valeur des estimateurs. 


5.3.6 Exemple : la concentration en ozone 


Voici les résultats de l'ANOVA à un facteur présentée en introduction à 
cette partie. Les données correspondent aux 50 données journalières. Une va- 
riable vent à 4 modalités a été créée à partir du tableau de données. Nous 
allons présenter les différentes contraintes et les commandes associées à ces 
contraintes. Quelle que soit la contrainte utilisée, nous obtiendrons toujours le 
même Ÿ car il est unique, et nous aurons toujours le même tableau d’analyse 
de la variance. À l’issue de ces trois analyses similaires, nous analyserons les 


résidus. 


1. 4 = 0. Pour obtenir cette contrainte, il suffit de spécifier au logiciel un 
modèle sans intercept 


modi<-1m(03"vent-1,data=ozone) 


Si nous souhaitons quantifier les effets des modalités nous examinons les 
coefficients. 
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summary (mod1) 
Coefficients: 

Estimate Std. Error t value Pr(>lt|l) 
ventEST 103.850 4.963 20.92 < 2e-16 *xx*xx*% 
ventNORD 78.289 6.618 11.83 1.49e-15 *x*% 
ventOUEST 71.578 4.680 15.30 < 2e-16 *xx*xx* 
ventSUD 94.343 7.504 12.57 < 2e-16 *x*xx* 


Nous obtenons bien comme estimateur de chaque paramètre la moyenne 
empirique de la teneur en O3 dans chaque groupe. Il faut faire attention 
au listing lorsque la constante n’est pas dans le modèle. Ainsi, pour le 
calcul du R?, le logiciel utilise la formule sans constante. En général, lors 
d’une analyse de la variance, nous ne sommes pas intéressés par le test 
admettant comme hypothèse H, : a; = 0 et donc les dernières colonnes 
du listing ne sont pas d’un grand intérêt. Nous sommes intéressés par la 
question suivante : y a-t-il une influence du vent sur la concentration en 
03 ? Pour répondre à cette question, GNU-R propose la fonction anova(), 
que nous avons déjà utilisée dans la section précédente, et qui permet de 
tester des modèles emboîtés. Si cette fonction est utilisée avec un seul 
modèle, il faut que la constante soit dans le modèle. Quand la constante 
ne fait pas partie du modèle, le tableau est faux. Ainsi, dans l’exemple 
précédent, nous avons : 


anova(modi) 
Analysis of Variance Table 
Response: 03 

Df Sum Sq Mean Sq F value PrO@F) 
vent 4 382244 95561 242.44 < 2.2e-16 **x 
Residuals 46 18131 394 


Ce tableau est faux car la constante ne faït pas partie du modèle. 
Pour savoir s’il y a un effet vent dans le cas de l’analyse à un facteur il 
faut utiliser les autres contraintes comme nous allons le voir. 

. @ = (. Le logiciel GNU-R utilise par défaut la contrainte «1 = 0 appelée 
contraste « treatment ». Cela revient dans notre cas à prendre la cellule 
EST comme cellule de référence (la première par ordre alphabétique). La 
commande pour effectuer l’analyse est 


mod2<-1m(03"vent ,data=ozone) 


Pour répondre à la question sur l’influence du vent sur la concentration, 
nous analysons le tableau d’analyse de la variance donné par 


anova (mod2) 
Analysis of Variance Table 
Response: 03 

Df Sum Sq Mean Sq F value PrO@F) 
vent 3 9859.8 3286.6 8.3383 0.0001556 xxx 
Residuals 46 18131.4 394.2 
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Et nous retrouvons heureusement le même tableau d'ANOVA que précé- 
demment. En effet, même si les coefficients y, « ne sont pas estimables de 
manière unique, 1 projections Ÿ et Ÿ restent uniques et le test Fest 
identique. La valeur calculée est donc bien supérieure à la valeur théo- 
rique, l'hypothèse H, est donc rejetée. En conclusion, il existe un effet 
vent. 

Si nous nous intéressons aux coefficients, ceux-ci sont différents puisque 
nous avons changé la formulation du modèle. Examinons-les grâce à la 
commande suivante : 


summary (mod2) 
Coefficients: 

Estimate Std. Error t value Pr(>lt|l) 
(Intercept) 103.850 4.963 20.923 < 2e-16 *xx*x* 
ventNORD -25.561 8.272 -3.090 0.00339 *x* 
ventOUEST -32.272 6.821 -4.731 2.16e-05 *xx*x*x 
ventSUD -9.507 8.997 -1.057 0.29616 


L’estimateur de y, noté ici Intercept, est la moyenne de la concentration 
en O3 pour le vent d’EST. Les autres valeurs obtenues correspondent aux 
écarts entre la moyenne de la concentration en O3 de la cellule pour le 
vent considéré et la moyenne de la concentration en O3 pour le vent d’EST 
(cellule de référence). 

La colonne correspondant au test Ho : 5; = 0 à un sens pour les 3 der- 
nières lignes du listing. Le test correspond à la question suivante : y a-t-il 
une ressemblance entre le vent de la cellule de référence (EST) et le vent 
considéré. Le vent du SUD n’est pas différent au contraire des vents du 
NORD et d’OUEST. 

Remarque 

Nous pouvons utiliser le contraste « treatment », utilisé par défaut en 
écrivant : 


1m(03"C(vent ,treatment) ,data=ozone) 


Si nous voulons choisir une cellule témoin spécifique, nous l’indiquons de 
la manière suivante : 
1m(03"C(vent ,base=2) ,data=ozone) 


Nous choisissons ici la seconde modalité comme modalité de référence. 
Le numéro des modalités correspond à celui des coordonnées du vecteur 
levels(ozonel[,"vent"]). 


. Dn;a; = 0 Cette contrainte n’est pas pré-programmée dans GNU-R, il 


faut définir une matrice qui servira de contraste. Cette matrice appelée 
CONTRASTE correspond à X[5 n,0;—0] 


II <- length(levels(ozonefvent)) 
nl <- table(ozonefvent) 
CONTRASTE<-matrix(rbind(diag(II-1),-nI[-I1]/nl[I1]),1I,I1-1) 


Régression sur variables qualitatives 


125 


et le modèle est donné par l’expression suivante : 
mod3<-1m(03"C(vent , CONTRASTE) ,data=ozone) 
Nous retrouvons le même tableau d’analyse de la variance : 


anova (mod3) 
Analysis of Variance Table 
Response: 03 

Df Sum Sq Mean Sq F value PrOF) 
vent 3 9859.8 3286.6 8.3383 0.0001556 *x*x* 
Residuals 46 18131.4 394.2 


L'effet vent semble significatif. Si nous nous intéressons maintenant aux 
coefficients, nous avons : 


summary (mod3) 
Coefficients: 

Estimate Std. Error t value Pr(>lt|l) 
(Intercept) 86.300 2.808 30.737 < 2e-16 *x** 
C(vent, CONTRASTE) 1 17.550 4.093 4.288 9.15e-05 *x*%* 
C(vent, CONTRASTE)2 -8.011 5.993 -1.337 0.187858 
C(vent, CONTRASTE)3 -14.722 3.744 -3.933 0.000281 **x* 


En effectuant les calculs, nous retrouvons que à est bien la moyenne de 
la concentration en O3. 


. Da; = 0. Cette contrainte est implémentée sous GNU-R : 
mod4<-1m(03"C(vent ,sum) ,data=ozone) 
À nouveau, nous retrouvons le même tableau d’analyse de la variance : 


anova (mod4) 
Analysis of Variance Table 
Response: 03 

Df Sum Sq Mean Sq F value PrOF) 
vent 3 9859.8 3286.6 8.3383 0.0001556 *xx*x* 
Residuals 46 18131.4 394.2 


L'effet vent est significatif. Si nous nous intéressons maintenant aux co- 
efficients, nous avons : 


summary (mod4) 
Coefficients: 

Estimate Std. Error t value Pr(>lt|) 
(Intercept) 87.015 3.027 28.743 < 2e-16 *x* 
C(vent, sum)i 16.835 4.635 3.632 0.000705 **x% 
C(vent, sum)2 -8.726 5.573 -1.566 0.124284 
C(vent, sum)3 -15.437 4.485 -3.442 0.001240 ** 


Le coefficient Intercept correspond à la moyenne des concentrations 
moyenne en O3 pour chaque vent. 
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Enfin, il est utile d’analyser les résidus afin de constater si l'hypothèse d’ho- 
moscédasticité des résidus est bien vérifiée. 


resid2 <- resid(mod2) 

plot(resid2”"vent ,data=ozone,ylab="residus") 
plot(resid2”jitter(fitted(mod2)) ,xlab="ychap",ylab="residus") 

1set (theme = col.whitebg()) 
xyplot(resid2"1(1:50)|vent,data=ozone,xlab="index",ylab="residus") 
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Fig. 5.10. Trois représentations similaires des résidus. 


Ainsi, sur la figure 5.10, nous constatons, malgré le faible nombre d'individus 
par cellule, que les variances semblent voisines d’une cellule à l’autre. La figure 
5.11 permet de constater que l’hypothèse de normalité semble vérifiée. 
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Fig. 5.11. Examen de la normalité par un diagramme Quantile-Quantile. 
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Nous terminons cette section par une dernière approche de l’analyse de la 
variance basée sur une décomposition directe de la variance. 


5.3.7 Une décomposition directe de la variance 


Une introduction très classique de l’analyse de variance consiste à décompo- 
ser la variance totale en somme de différentes parties. Rappelons les notations 
utilisées. 

- La variable qualitative explicative admet 7 modalités (ou niveaux) et le 
nombre d'individus par niveau vaut n;. Le nombre total d'individus est n — 
> Mi. 

- Y:j : observation de la v.a. correspondant à l'individu j du niveau #, où 
i=l,... ,letj=1,... ,n;. 

- La moyenne empirique par niveau et la moyenne générale sont données par 
les relations suivantes : 


- Le , 
D = Yi. = _ > Yij moyenne par niveau 1. 
j=1 
1 I Ni 1 I 
Due ADD vi = D np. 
i=1 j=1 i=1 


Cette approche consiste à décomposer la variance totale 
TI mn 
1 _ 25 
” > Dis — ÿ) 
i=1 j=i 


en somme de deux termes. Le premier est une variance intra due au hasard, 
appelée aussi variance intrastrate (ou résiduelle) 


IT mn 
RD Un) 
i=1 j=1 


et le second une variance inter due au facteur, appelée aussi variance interstrate 
(ou des écarts) 


5.4 Analyse de la variance à deux facteurs 


5.4.1 Introduction 


Nous voulons maintenant modéliser la concentration en ozone par le vent 
(4 modalités) et la nébulosité, que nous avons regroupée en 2 modalités (soleil 
nuageux). Nous avons mesuré 2 observations par niveau (tableau 5.5) ; 
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Tableau 5.5. Concentration en ozone. 


NORD SUD EST OUEST 
89.6 134.2 139.0 87.4 


SOLEIL 
106.6 121.8 126.2 84.0 
81.2 68.4 63.6 88.0 


NUAGEUX 
78.2 113.8 79.0 A1.8 


En général, la première variable explicative ou premier facteur est celui indiqué 
en ligne (ici Nébulosité) admettant ? modalités, le seconde variable explicative 
ou second facteur est celui indiqué en colonne (ici Vent) admettant J modalités. 
Les individus ne sont plus repérés par un couple (i,j) mais maintenant par 
un triplet (4, j,k), représentant le 4° individu admettant la modalité 4 de la 
première variable explicative et la modalité j de la seconde variable explicative. 
Le nombre n;; correspond au nombre d’observations ayant la modalité + du 
premier facteur et j du second. Nous avons la définition suivante. 


Définition 5.1 
SiV(i,5), ni; > 1, le plan est dit complet, 


si A(i,5) : ni; = 0, le plan est dit incomplet, 
siV(i,j), ni; =r, le plan est dit équilibré. 


5.4.2 Modélisation du problème 


Les deux variables explicatives Vent et Nébulosité ne sont pas utilisables 
directement et nous allons donc travailler avec leur version codée notée À pour 
la nébulosité et B pour le vent. Le modèle le plus simple est 


Yi = + BiAu + Ba A2 + BB + BaBj2 + B5Bj3 + Be Bja + Eijr. 


Afin d'écrire ce modèle sous forme matricielle, considérons le vecteur Y € R” 
des observations y;;4 rangées dans l’ordre lexicographique de leurs indices. Nous 
notons &;; € IR” le vecteur dont toutes les coordonnées sont nulles sauf celles 
repérées par les indices 434 pour k = 1,--- ,n;;, qui valent 1. Ce vecteur est le 
vecteur d'appartenance à la cellule (à, j). Les vecteurs &;; sont des vecteurs de 
R°” orthogonaux entre eux. Nous définissons 


+ _ HE _ 
Ei. —= Cij et Ej — Cij» 
9 à 


où €. est le vecteur d'appartenance à la modalité à du premier facteur et & ; est 
le vecteur d'appartenance à la modalité j du second facteur. Le modèle s'écrit 
alors sous la forme suivante : 


Y = pl + Hier. + Poe, + P3E 1 + Dao + H5e 3 + Bee a + €. 
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ou encore avec les notations précédentes 
Y = ul + Aa + BB +Ee, (5.10) 


avec ÀQ = (é1., 62.) et Be = (&1,€2,€3,€4). Si nous additionnons toutes les co- 
lonnes de A, (idem pour B4), nous obtenons le vecteur 1. La matrice (1, A, B) 
n’est donc pas de plein rang et l'hypothèse H1 n’est pas vérifiée. Nous ne pou- 
vons donc appliquer directement les résultats des trois chapitres précédents au 
modèle (5.10). Il faudra à nouveau imposer des contraintes. 

En régression multiple, nous avons p variables explicatives X:,---,X, et 
nous travaillons en général avec ces p variables. Nous pouvons bien évidem- 
ment travailler avec des transformations de ces variables ou travailler avec des 
interactions (par exemple une nouvelle variable serait X1 x X2), comme cela a 
été indiqué au chapitre 2. En analyse de la variance comme en analyse de la 
covariance, nous Commençons toujours par traiter le modèle avec interaction. 
Le produit Nébulosité avec Vent est impossible à effectuer et nous codons ce 
produit via une matrice C; dont la première colonne indique l’appartenance 
au croisement SOLEIL-NORD, la seconde colonne au croisement SOLEIL-SUD et 
ainsi de suite. Nous obtenons le modèle suivant : 


Vijk = U + Qi + Bj + Yi + Eijks (5.11) 


avec un effet moyen général u, un effet différentiel a;, un effet différentiel B; et 
un terme d'interaction 7;;. En utilisant les notations précédentes, l’écriture du 
modèle sous forme matricielle est : 


Y = ul + Aa + BB + C,7y+E, 


où Ce = (é11, €12, €13; E14; E21, E92, E23, Epa). A titre d'exemple, écrivons les ma- 
trices obtenues avec le jeu de données présenté : 


D Yaiit FT 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 T Eu 
Y112 1 1 0 1 0 0 0 1 0 0 0 0 0 0 0 |. €112 
Y121 1 1 0 0 1 0 0 0 1 0 0 0 0 0 0 : E121 
Y122 1 1 0 0 1 0 0 0 1 0 0 0 0 0 0 1 E122 
Y131 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 2 131 
Y132 1 1 0 0 0 1 0 0 0 1 0 0 0 0 0 2 E132 
Yiai 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 2 Eia1 
yiaa | _ | 1 1 0 0 0 0 1 0 0 0 1 0 0 0 0 vit €142 
gu | | 1 0 1 1 0 0 0 0 0 0 0 1 0 0 0 Ne |+| 
Y212 Le 0e 1e 10 ‘07 OU TION 201 A0 O0: L 1 «0x “D! 70 13 212 
Ya21 1! 0. 1 ©: 1 © 0: 0 0 0 0: 0 A1 0 0 4 E221 
Y222 1 0 1 0 1 0 O0 0 0 0 0 0 1 0 0 v21 E222 
Ya31 1 0 1 0 0 1 0 0 0 0 0 0 0 1 0 722 231 
Y232 1 0 1 0 0 1 0 0 0 0 0 0 0 1 0 723 E232 
Yaai 1 0 1 0 0 0 1 0 0 0 0 0 0 06 1 | - 724 E2a1 

L yaac L 1 0 1 0 0 0 1 0 0 0 0 0 0 0 1 L e242 


Remarquons à titre de comparaison que les interactions de variables continues, 
construites avec le produit des variables, et l’interaction de deux facteurs, repré- 
sentée ici par ©, suivent la même logique de construction. En effet, les colonnes 
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de C4 sont tout simplement le résultat des produits 2 à 2 des colonnes de A: 
par celle de B.. 

À nouveau la matrice (1, À, B,C) n’est pas de plein rang et l'hypothèse H: 
n’est pas vérifiée. La matrice X = (1, À, B,C) de taille nx(1+1+J+1J) est de 
rang 1J. Il faut imposer donc 1 + 7 +J contraintes linéairement indépendantes 
afin qu’elle devienne inversible. 

Les contraintes classiques sont : 


1. contrainte de type analyse par cellule 
u = 0 Vi a; =0 Vi PB; =0; 
2. contrainte de type cellule de référence 
ai = 0 Bi = 0 Vi ya =0 Vi is; =0; 


3. contrainte de type somme 
i j j i 


Remarque 

Pour les contraintes de type analyse par cellule ou cellule de référence, nous 
avons bien 1 + 1 + 1 + (J — 1) contraintes. En effet, la dernière contrainte 
M; = 0 pour j = 1,:-:,J pourrait s’écrire y1; = 0 pour j variant de 2 à 
J. Le cas correspondant à j — 1, soit 11 est déjà donné dans la contrainte 
précédente. 

Pour la contrainte de type somme, c’est plus difficile à voir. Montrons que les 
TI +J contraintes Vi vi = 0 et Vj D, yi; = 0 ne sont pas indépendantes. En 
effet quand 1 + J — 1 contraintes sont vérifiées, la dernière restante l’est aussi. 


Êit. /Cio: sn Cry (Gÿ = 0 

C21 C22 ... C2J-1 C2J = 0 

CI1 CI2 +. CIJ-1 CIJ = 0 
=0 =0 ... =0 c 


Posons que 7 + J — 1 contraintes sont vérifiées : Z en ligne et J — 1 en colonnes 
(voir ci-dessus). La dernière somme c vaut 0 (voir ci-dessus). 


Nous n’aborderons ici que la contrainte de type analyse par cellule et la 
contrainte de type somme et nous considérerons uniquement les plans équilibrés 
avec Tr observations par cellule. 

5.4.8 Estimation des paramètres 

Considérons les notations suivantes : 


1 a 1 Jr 1 Tr 1 
Vi5 = =D Vins = Tr SR Yi = DE De un Vijk- 
k=1 


j=1 k=1 i=1 k=1 ä,3,k 
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Proposition 5.3 
Soit le modèle d'analyse de la variance à deux facteurs suivant : 


Yijk = LU + Où + Bj + Yij + Eire, 

1. sous les contraintes 1 = 0, a; — 0 pour tout i = 1,...,1 et B; = 0 
pour tout j = 1,...,J, qui correspond au modèle Yyijr = Yi; + Eijr, les 
estimateurs des moindres carrés des paramètres inconnus sont 

Vi = Vij- 
Les %;; correspondent aux moyennes par cellule. 


2. sous les contraintes 5; i = 0, 37,8; —0, Vi » y; = 0 et Vj D; vi; = 


0, les estimateurs des moindres carrés des paramètres inconnus sont 


HO — 7 
À — Yi. —Ÿ 
P; = ÿ5-5 
Vij = Yi — Yi. — Y.j + Ÿ, 


Dans tous les cas, la variance résiduelle a? est estimée par 


I J ij = 
ne Di + Dee Æ Gi5)° 
n—1J ‘ 


La preuve est à faire en exercice (cf. exercices 5.4 et 5.5). 


5.4.4 Analyse graphique de l’interaction 


Nous souhaitons savoir si les facteurs influent sur la variable à expliquer. La 
première analyse à effectuer consiste à étudier l'interaction. En effet, si l’inter- 
action à un sens, alors les facteurs À et B influent sur la variable à expliquer 
car l’interaction est le produit de À avec B. Considérons le modèle complet 


Yi = ++; + Vi +Eisk 
que nous pouvons réécrire sous une forme simplifiée 
Yijk —  Mij À Eijk. 
Considérons maintenant le modèle sans interaction 
Vie = H+ai +; +Eir. 


La première étape consiste à tester la significativité de l'interaction. Cela re- 
vient à tester entre les deux modèles présentés. Avant d'aborder les tests, nous 
étudions une approche graphique de l'interaction. Si l’interaction est absente 
nous avons le modèle simplifié ci-dessus. 
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Fixons le facteur À au niveau 4. Pour ce niveau donné, nous avons J cellules 
correspondant chacune à un niveau du facteur B. Prenons l’espérance dans 
chacune de ces cellules, nous obtenons sous l’hypothèse que l'interaction n’est 
pas significative : ue + @ + B;, 1 < 5 <J. 

En traçant en abscisse le numéro j de la cellule et en ordonnée son espérance, 
nous obtenons une ligne brisée appelée profil. 

Maintenant changeons de niveau pour le facteur À et passons au niveau 
@;+1. Nous pouvons tracer la même ligne brisée et ce profil sera, sous l’hy- 
pothèse de non-interaction : 4 + a@;41 + B;, soit le profil précédent translaté 
verticalement de @;+1 — &i. 

En conclusion, l’absence d'interaction se reflète graphiquement par un pa- 
rallélisme des profils. N’ayant pas les vecteurs de paramètres, nous pouvons 
les estimer par les moyennes empiriques des cellules et constater, ou non, leur 
parallélisme. Puisque nous utilisons des estimations et non les paramètres, le 
parallélisme ne sera pas, même sous Ho, vérifié au sens strict. Cependant l’exa- 
men des profils donne une idée sur l’existence d’une interaction. 

Dans l’exemple de l’ozone, nous avons, grâce aux ordres suivants : 


interaction.plot(ano2[,"vent"] ,ano2[,"NEBU"] ,ano2[,"03"] ,co1=1:2) 
interaction.plot(ano2[,"NEBU"] ,ano2![,"vent"] ,ano2[,"03"],co1=-1:4) 


les graphiques ci-dessous. 
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Fig. 5.12. Examen graphique de l'interaction entre nébulosité et vent. 


Bien évidemment les profils ne sont pas parallèles sur les graphiques 5.12. Nous 
constatons que la modalité EST-SOLEIL (ou EST-NUAGE) est très éloignée de la 
position qu’elle aurait dû occuper si les profils étaient parallèles. Le vent d’EST 
associé à un temps ensoleillé semble propice à un fort pic d’ozone. Ces gra- 
phiques suggèrent donc l’existence d’une interaction entre Vent et Nébulosité, 
principalement entre EST et SOLEIL. Mais est-ce que cette différence locale est 
suffisante par rapport aux différences entre individus dues à la variabilité € ? 
Afin de répondre à cette question il est nécessaire d'utiliser un test statistique 
et de supposer l’hypothèse gaussienne vérifiée. 
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5.4.5 Hypothèse gaussienne et test de l’interaction 


Grâce à l’hypothèse gaussienne, nous pouvons utiliser les tests d’hypothèses 
vus au chapitre 3. Rappelons encore que notre principal objectif est de savoir 
si les facteurs influent sur la variable à expliquer. 

Nous préconisons de tester en premier la significativité de l’interaction. En 
effet, si l’interaction est significative, les deux facteurs sont influents via leur 
interaction, il n’est donc pas nécessaire de tester leur influence respective. 

Ecrivons ce test de l’interaction et explicitons les hypothèses du test 


(Ho)ag “ V(i,3) Vij — 0 contre (Hi)A48 à (à, 5) Vij À 0. 


Les modèles sous (Ho)4g et (H1)A4B peuvent s’écrire encore sous la forme sui- 
vante : 


Yijk = H+@+b;+eEi;s modèle sous (H5)48 


Yijk = ++; +'yi,+eix modèle sous (H:1)48. 


Ce test, qui permet de connaître l'influence globale de l’interaction des fac- 
teurs, est tout simplement un test entre deux modèles dont l’un est un cas 
particulier de l’autre (section 3.6.2, p. 61). Nous pouvons donc énoncer le théo- 
rème suivant. 

Théorème 5.2 

Soit un modèle d'analyse de la variance à deux facteurs. Nous souhaitons tes- 
ter la validité d’un sous-modèle. Notons l’hypothèse nulle (modèle restreint) 
(Ho)as: V(i,j) i5 = 0, qui correspond au modèle yijr = + +0; +Eir, 
contre l'hypothèse alternative (H:)48 : À(i,5) 5 Æ 0 qui correspond au mo- 
dèle complet yi5r = ui + ai + BP; + V5 + Eijr. Pour tester ces deux hypothèses, 
nous utilisons la statistique de test F ci-dessous qui possède comme loi sous 
(Ho)A8 : 


I YI?/(T-1-7+0 | 
= + VU JIJ-I-J+1,n-1J- 
IF —ŸI2/n 19) 


Lorsque le plan est équilibré, la statistique de test s'écrit 


: DS ete Us Hu) TI à 
u ÿ TV JIJ-1-J+1,n-1J: 
DD DR (Yisr — Yis)? T+J-1 


L'hypothèse (Ho)Ag sera rejetée en faveur de (H1)AB si l'observation de la sta- 
tistique F est supérieure à frr-1-J+1n-13(1—@), la valeur «à étant la probabi- 
lité de rejeter à tort (Ho)AB, ou erreur de première espèce, et nous conclurons 
alors à l'effet des facteurs explicatifs. 


La preuve de ce théorème se fait facilement. I] suffit d'appliquer le théorème 
3.2 p. 63 avec l'écriture des normes données en (5.8) et (5.9). Nous avons un 
premier modèle, ou modèle complet, 


Yijk = Li + Où + Bj + Yij + Eijr modèle (1) 
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et obtenons les estimations suivantes : A(1),-::,Ÿ (1) et a?(1), le (1) précise 
que nous sommes dans le premier modèle. 

L’interaction n’est pas significative, nous avons repoussé ce modèle (1) au 
profit d’un second modèle (modèle 2) 


Yijk = H + Qi + Bj+eEijx modèle (2) 


dans lequel nous obtenons les estimations f(2),-::,Ÿ(2) et 62(2). 

L'étape suivante consiste à tester l'influence des facteurs A et/ou B et donc 
tenter de simplifier le modèle. Testons par exemple l’influence du facteur A. 
Nous avons déjà le modèle (2) qui prend en compte l'effet de À, ce qui sera 
donc l’hypothèse alternative (H1)4. En simplifiant ce modèle pour éliminer 
l'influence de À , nous obtenons le modèle (3). Ce modèle sera le vrai modèle 
sous l’hypothèse nulle du test, (Ho)4, 


Yijk = LU + B; + Eijk modèle (3) 
avec les estimations suivantes : A(3),--- ,Ÿ (3) et o2(3). 


Pour tester l'influence du facteur À, nous cherchons à départager 2 modèles, 
le modèle (2) et le modèle (3); nous avons la statistique de test 


r-lF®- FGNF/E —1) 


© F(1-_1),ddt(résiduelle) : 


Lorsque le plan est équilibré et que les contraintes choisies sont de type somme, 
les sous-espaces sont orthogonaux et la statistique de test peut se récrire sous 
la forme suivante : 


IPe,Y12/( 1) 


F = ee 


© F(1-1),ddl(résiduelle) - 
Quel estimateur de o? choisit-on pour le dénominateur de la statistique de 
test ? &?(2) ou 6?(1)? 


1. Si nous sommes dans la logique des tests entre modèles emboîtés, le pre- 
mier modèle a été rejeté, nous travaillons donc avec les modèles (2) et 
(3), nous estimons alors o? par 6?(2). La statistique de test vaut 


- IŸ (2) - Ÿ(8)P/4 1) 
IX —Y(2)*/(n 1-7 +1) 


(11), (n-1-J+1): 


2. Bien que l’on ait rejeté le modèle complet avec interaction, certains au- 
teurs et utilisateurs préconisent de conserver le modèle complet pour es- 
timer o? en arguant de la précision de cet estimateur. Il est vrai que la 
SCR obtenue dans le modèle complet est plus petite que la SCR obtenue 
dans le modèle sans interaction, mais les degrés de liberté associés sont 
différents. Ainsi, dans le modèle complet, le ddl vaut n — 1J, alors que, 
dans le modèle sans interaction, le ddl vaut n — 1 — J +1. La précision 
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accrue de l’estimateur peut être vue comme une précaution envers la pos- 
sibilité d’une interaction, même si on l’a rejetée par le test d’hypothèse 
(Ho)ag contre (H1)48. 

La statistique de test vaut 


SNCF ONPREST 
IX —Y(DIF/(n — 19) 


© F(1-1),(n-19): 


5.4.6 Tableau d’analyse de la variance 


En pratique, les résultats d’une analyse de la variance sont présentés dans 
un tableau récapitulatif, appelé tableau d’analyse de la variance. 


Tableau 5.6. Tableau d’analyse de la variance. 


Variation ddl SC CM Valeur du F  Pr(> F) 
Facteur À I-1 SC CM SCA CMA 
: 0 qe 1) su 
= B B 
Facteur B J-1 SC CMz = CD Te 
SCAB CMA8 


Interaction  (1-1)(J-1) SCas CMaz = ea GNIR 


Résiduelle n-IJ SCR de L Aro D) 


La première colonne indique la source de la variation, puis le degré de liberté 
associé à chaque effet. La somme des carrés (SCR) est donnée avant le carré 
moyen (CM), qui est par définition la SCR divisée par le ddl. Aïnsi, dans le cas 
où les sous-espaces E1, E2, E3 et E41 sont orthogonaux, ce tableau donne tous 
les tests indiqués précédemment, en utilisant l'estimation de o? donnée par le 
modèle avec interaction (cf. numéro 2 p. 134) : 
— la statistique de test d’interaction, (Ho)4g contre (H:)A48, est le rapport 
CMA48 / CMR; 
— la statistique de test d'influence du facteur A, (Ho)4 contre (H1)4 = 
(Ho)Ap, est CM1 / CMR; 
— la statistique de test d'influence du facteur B, (Ho)8 contre (H:)5 = 
(Ho)ag: est CM / CMR. 
Ce tableau d’analyse de variance est donc une présentation synthétique des 
tests d'influence des différents facteurs et interactions. 


Lorsque le plan est équilibré, nous avons la proposition suivante (cf. exercice 
5.6). 


Proposition 5.4 
Lorsque le plan est équilibré, les quantités intervenant dans le tableau d'analyse 
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de la variance ont pour expression : 


SCT = NON OS (yi5x — 9) 
à  j  k 


SCA — Jr (ur. — 9) 


i 


SC = Ir d (y; 5) 
1. 

SCag — TN (is. — Yi. — Vi. +3) 
è  j 

SCR = NS OS (ir — Gi). 
à j k 


5.4.7 Conclusion 


Résumons donc la mise en œuvre d’une analyse de la variance à deux fac- 
teurs. Il est utile de commencer par examiner l’interaction graphiquement. En- 
suite nous pouvons toujours supposer l’hypothèse gaussienne vérifiée et com- 
mencer par tester l'hypothèse d'interaction (H5)4g. Comme le test dépend de 
projections qui sont uniques, il est inchangé, quel que soit le type de contrainte 
utilisé. Ensuite, si l’interaction n’est pas significative, il est possible de tester 
les effets principaux (Ho) 4 et (Ho)g et de conclure. Enfin, l’analyse des résidus 
permet quant à elle de confirmer l’hypothèse d’homoscédasticité et l'hypothèse 
de normalité. 

Pour une présentation plus complète de l’analyse de la variance nous ren- 
voyons le lecteur intéressé au livre de Scheffé (1959). De même, un traitement 
complet des plans d'expérience peut être trouvé dans Droesbeke et al. (1997). 


5.4.8 Exemple : la concentration en ozone 


Afin de savoir si les variables Vent et Nébulosité ont un effet sur la concen- 
tration d’ozone, nous allons utiliser une ANOVA à deux facteurs. N’ayant au- 
cune autre connaissance à priori, tous les modèles incluant le vent sont pos- 
sibles : avec interaction, sans interaction, sans effet du facteur Nébulosité. 

Il est conseillé de commencer par le modèle avec le plus d'interactions et 
ensuite d’essayer d’éliminer les interactions. Ainsi nous pouvons essayer de 
tester (Ho)48;, YVijk = ii + B; + Eijk Vi, 3, k) contre (Hi)A48;, Yiÿjk = ii + 
Dj + Yij + Eijr V(i, j, k). Ces deux modèles s’écrivent et se testent sous GNU-R 
de la façon suivante : 


modi <- 1m(03"vent+NEBU+vent : NEBU,data=ozone) 
mod2 <- 1m(03"vent+NEBU,data=ozone) 
anova(mod2 ,mod1) 

Analysis of Variance Table 
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Model 1: 03 ” vent + NEBU 
Model 2: 03 ” vent + NEBU + vent : NEBU 


Res .Df RSS Df Sum of Sq F PrCF) 
1 45 11729.9 
2 42 11246.2 3 483.6 0.602 0.6173 


L'hypothèse de non-interaction (Ho)4g est donc conservée. La différence 
constatée graphiquement (fig. 5.12) n’est pas suffisante pour repousser l’hypo- 
thèse de non-interaction. Ensuite nous souhaitons savoir si la nébulosité pos- 
sède un effet sur le taux d'ozone. Nous testons alors (Ho)p,Yije = U + @i + 
Eijr V(i, 5, k) contre (Hi:)s, Yi = m+ ai +0; +eijr V(i,3, k). Nous allons donc 
utiliser la statistique FR, mais se pose la question de l’estimateur 62. Nous 
avons deux choix (cf. p. 134) : 

— le premier consiste à utiliser ||Y — à — à; — B;||?/(n — 1 — J +1), qui est 

l'estimateur classique de 6? dans un test entre modèles emboîtés ; 

— le second consiste à conserver l’estimateur de o? utilisé lors du test précé- 

dent (Ho)Ag (test d'existence d'interaction) où l’estimateur était : ||Y — 

À — & — 5 — %5|l7/(n — 19). 
La première méthode consiste à dire, puisque le modèle sans interaction a été 
conservé, il est donc « vrai» et on l'utilise pour estimer l’erreur. La seconde 
méthode consiste à dire, bien que le modèle à interaction ait été repoussé, il 
se peut qu’il subsiste une interaction même faible qui pourrait modifier l’esti- 
mation de o?. Afin d'éviter cette modification, la même estimation de a? est 
conservée. 

Afin de traduire tout cela sous GNU-R, nous introduisons un nouveau mo- 
dèle sans effet nébulosité : 


mod3 <- 1m(03”"vent ,data=ozone) 
Ensuite nous testons selon la première procédure grâce à 


anova(mod3 ,mod2) 
Model 1: 03 ” vent 
Model 2: 03 ” vent + NEBU 


Res .Df RSS Df Sum of Sq F PrOF) 
1 46 18131.4 
2 45 11729.9 1 6401.5 24.558 1.066e-05 *x%*%* 


et nous repoussons (Ho)g, il existe un effet du vent et de la nébulosité. Si l’on 
utilise la première procédure nous avons : 


anova(mod3,mod2,mod1i) 
Analysis of Variance Table 
Model 1: 03 ” vent 
Model 2: 03 ” vent + NEBU 
Model 3: 03 ” vent + NEBU + vent :NEBU 
Res .Df RSS Df Sum of Sq F PrOF) 


138 


Régression - Théorie et applications 


1 46 18131.4 
2 45 11729.9 1 6401.5 23.907 1.523e-05 *x*xx* 
3 42 11246.2 3 483.6 0.602 0.6173 


et nous lisons encore une fois qu’au niveau de 5 % l’hypothèse (H5)8 est rejetée 
(cf. ligne 2). L'analyse des résidus ne donne rien de particulier ici et sera donc 
omise. 


5.5 Exercices 


Exercice 5.1 (Questions de cours) 
1. Vous faites une analyse de la variance à 1 facteur équilibrée, la variance 
de l’estimateur des MC est diagonale. 
A. Oui, toujours: 
B. Non, jamais ; 
C. Peut-être, cela dépend des données de X. 


2. Lors d’une analyse de la variance à deux facteurs, le modèle utilisé est 
Yijk = Mij +Eijr. Les paramètres estimés sont mM;;, la région de confiance 
de deux paramètres est : 

À. une ellipse dont les axes sont parallèles aux axes du repère; 

B. une ellipse dont les axes peuvent ne pas être parallèles aux axes du 
repère ; 

C. un cercle. 

3. Lors d’une analyse de la variance à deux facteurs, le modèle utilisé est 
Yiÿk = Mij + Eijr et le plan équilibré. Les paramètres estimés sont 7m;;, 
la région de confiance de deux paramètres est : 

À. une ellipse dont les axes sont parallèles aux axes du repère; 

B. une ellipse dont les axes peuvent ne pas être parallèles aux axes du 
repère ; 

C. un cercle. 

4. Vous souhaitez tester l’effet d’un facteur lors d’une analyse de la variance 
à 2 facteurs, l’interaction est positive : 

A. vous effectuez l’analyse à un facteur correspondant et conluez en 
conséqence ; 

B. vous ne faites rien car il y a un effet du facteur ; 

C. vous regardez dans le tableau de l'ANOVA la valeur de la p-value de 
l'effet désiré afin de conclure. 


Exercice 5.2 (Analyse de la covariance) 
Nous souhaitons expliquer une variable Ÿ par une variable continue et une 
variable qualitative admettant 7 modalités. 


1. Donner la forme explicite des matrices X pour les 3 modélisations pro- 
posées. 
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2. Calculer ensuite l’estimateur des MC obtenu dans le modèle 5.1. 


3. Montrer que cet estimateur peut être obtenu en effectuant 1 régressions 
simples. 


Exercice 5.3 (fEstimateurs des MC en ANOVA à 1 facteur) 
Démontrer la proposition 5.2 p. 119. 


Exercice 5.4 (Estimateurs des MC en ANOVA à 2 facteurs) 
Démontrer la proposition 5.3 p. 131 lorsque les contraintes sont de type analyse 
par cellule. 


Exercice 5.5 (ff Estimateurs des MC en ANOVA à 2 facteurs, suite) 
Démontrer la proposition 5.8 p. 131 lorsque les contraintes sont de type somme 
dans un plan équilibré. 


Exercice 5.6 (f Tableau d'ANOVA à 2 facteurs équilibrée) 
Démontrer la proposition 5.4 p. 135. 


5.6 Notes : identifiabilité et contrastes 


L'objectif de cette partie est de répondre à la question suivante : comment 
trouver une solution unique et d’une manière relativement générale ? 


Nous allons adopter ici un point de vue issu de l’algèbre linéaire. Rappelons 
que nous avons X — (1, A.) où A, de dimension n x 1, est de rang 1. La 
matrice X de dimension n x p (ou n x 1 + 1) n’est pas de plein rang. Nous 
avons donc rang(X) = 1, c’est-à-dire que dim(S(X)) = J et non pas I +1, ce 
qui serait le cas si X était de plein rang. Rappelons que la matrice X peut être 
vue comme la matrice dans les bases canoniques d’une application linéaire f 
de R? dans R". En identifiant X et f ainsi que les vecteurs de IR? (et R”) à 
leurs coordonnées dans la base canonique de R? (et R”), nous avons 


X : R—-R? 
BE X(8) = X6. 


L'espace de départ IR? est l’espace des coefficients. L'espace d’arrivée est l’es- 
pace IR” des variables. Chacun de ces espaces est muni d’un produit scalaire, 
le produit scalaire euclidien. On peut donc décomposer chacun de ces deux es- 
paces en deux supplémentaires orthogonaux. Comme nous cherchons un vecteur 
de coefficients, nous nous intéressons à IR? qui se décompose en deux : 


R? — ker(X)@ker(X)!, 


avec ker(X) = {BE R? : XGB = 0} le noyau de X. Donc pour un coefficient 
quelconque y € R?, nous pouvons l’écrire comme suit : 


y = +7, jte ker(X) et y € ker(X)+. 
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Maintenant si on prend un coefficient ô qui minimise les MC nous avons 
B — Bt+/£, avec XB = XÜ' + XP = XÉ'. 


Comme nous l’avons déjà vu, si l’on ajoute à B* n'importe quel 31 qui soit 
élément de ker(X), alors on a toujours que Bi + 6 est aussi solution des MC. 
I n’y à pas unicité. Si l’on souhaite un unique vecteur de coefficient solution 
des MC, il semble naturel de poser que Bî = 0 et de garder ft € ker(X)+ 
comme solution de notre problème. Donc nous cherchons l’élément (unique) 
B* € ker(X){ qui soit solution des MC. 


Solution de norme minimum 


Montrons que le vecteur b*, qui est le vecteur solution du problème et qui est 
élément de ker(X)+, est le vecteur solution des MC qui est de norme minimum. 

Soit un vecteur quelconque B solution des MC, il se décompose en deux par- 
ties orthogonales, et du fait de cette orthogonalité nous avons la décomposition 
suivante : 


NA = A+ 27 = 18 + IA > NAIP. 


Nous avons donc que Bt est la solution des MC de norme minimum. 

Une première approche est de le chercher directement ce qui est donné par 
Bt = (X'X)TX/Y, où (X'X)* est l'inverse généralisé de Moore-Penrose (voir 
Golub & Van Loan, 1996, pp. 256-257). 

Une autre approche consiste à utiliser une solution du problème des MC 
quelconque et de la projeter dans ker(X)+. Pour cela, il nous faut déterminer 
ker(X)+, ou plus simplement ker(X). Quelle est la dimension de ker(X) ? 

Rappelons le théorème du rang : 


dim(S(X)) + dim(ker(X)) = p = 1 +1, 


où p est la dimension de l’espace de départ de l’application linéaire associée 
à X (ou le nombre de colonne de X). Ici nous savons que dim(S(X)) = I et 
donc dim(ker(X)) — 1. Le sous-espace vectoriel ker(X) est engendré par un 
vecteur non nul de IR?, vecteur que nous pouvons noter 6. Nous savons donc 
que ker(X)+ est engendré par 1 — p — 1 vecteurs. En termes de coefficients, 
cela se traduit par la phrase suivante : si l’on souhaite avoir un vecteur de 
coefficients unique, on ne pourra avoir que p — 1 coefficients indépendants, le 
dernier se déduira des autres par une combinaison linéaire. 

Trouvons maintenant un vecteur Bi non nul de ker(X), formant ainsi une 
base de ker(X). Si nous posons que Bf — (—1,1,...,1), il est bien sûr non 
nul. Nous savons que X = (1,, Ac), mais aussi que la somme des colonnes 
de À, vaut 1,. Donc, lorsque l’on effectue XBŸ, nous trouvons O, et donc 
6î = (-1,1,...,1) est une base de ker(X). Tout vecteur orthogonal à GB} 
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sera dans ker(X)+, et il suffit donc de projeter une solution B des MC dans 
l'orthogonal de Bi pour obtenir la solution de norme minimum f# : 


= (pis 8) pt)E. 
Cette solution offre l’intérêt d’être la plus faible en norme, cependant elle n’est 


pas forcément interprétable au niveau des coefficients, dans le sens où l’on ne 
contrôle pas la contrainte linéaire reliant les coefficients entre eux. 


Contrastes 


Une autre approche combine l'élégance de la solution de norme minimum 
(pas de choix arbitraire) à l’interprétabilité. Cette approche part du constat 
que souvent, le praticien n’est pas intéressé par les coefficients en soit, mais par 
leur différence ou toute autre combinaison linéaire des coefficients. Par exemple, 
si nous avons Î = 3 médicaments à tester avec 1 médicament de référence (le 
premier) et 2 nouveaux (les 2 suivants), l'intérêt sera certainement d’estimer 
l’apport des nouveaux médicaments en comparaison avec le médicament de 
référence et donc d’estimer 2 différences, (u + @1) — (u + @2) = 1 — a2 et 
(u + oi) — (u + a3) = &1 — a3. De même, si nous disposons de 2 témoins (les 2 
premiers) et de 2 nouveaux médicaments (2 suivants), nous pouvons souhaiter 
estimer l’apport d’un nouveau médicament en comparaison avec l'effet de réfé- 
rence (i.e. la moyenne des 2 témoins). Cela veut dire estimer (a1 + a2)/2 — as 
et (a1 + a2)/2 — 4. 

La question est donc : sous quelles conditions une combinaison linéaire des 
coefficients est-elle estimable de manière unique ? Nous savons qu’il faut que 
cette combinaison linéaire se trouve dans ker(X)+, mais existe-t-il un critère 
simple qui assure cela? C’est l’objet d’un contraste, défini ci-dessous. 
Définition 5.2 
Se aa est un contraste sur les @; si Se a; = 0. 


La définition 5.2 permet de s'assurer que les contrastes sont estimables de 
manière unique. Les contrastes sont des éléments orthogonaux à /3?, vecteur de 
base de ker(X). En effet, nous n’avons pas de contrainte sur y; mais uniquement 
sur &, c’est-à-dire 


I 
0 = Yu x 1 = ar — {(0, a’), 81). 
i=1l 


Tout vecteur a complété par 0 est donc élément de l’orthogonal de ker(X) 
et donc tout contraste est estimable de manière unique. 

Ainsi nous pouvons vérifier que dans le premier exemple ci-dessus les com- 
binaisons linéaires de coefficients a = (1,—1,0)" et b = (1,0, —1)’ sont bien des 
contrastes et donc estimables de manière unique. 

De même, dans le second exemple, les combinaisons linéaires de coefficients 
a = (1/2,1/2,—1,0) et b = (1/2,1/2,0,—1)’ sont aussi des contrastes et donc 
estimables de manière unique. 


Chapitre 6 


Choix de variables 


6.1 Introduction 
Dans les chapitres précédents, nous avons supposé que le modèle proposé 
Y=XB+E 


était le bon et que toutes les variables explicatives (X1,---,X,) formant le 
tableau X étaient importantes dans l'explication de la variable Y. 

Cependant, dans bon nombre d’études statistiques, nous disposons d’un en- 
semble de variables explicatives pour expliquer une variable (exemple de la 
concentration de l’ozone) et rien ne nous assure que toutes les variables inter- 
viennent dans l'explication. L'utilisateur à donc à sa disposition un ensemble 
de variables potentiellement explicatives ou variables candidates. Parmi ces 
variables, nous supposerons l’existence des variables transformées par des fonc- 
tions connues (cf. chapitre 4). Nous supposerons également dans ce chapitre 
que les données sont de « bonne » qualité, c’est-à-dire qu’il n’y a pas de point 
aberrant ou levier (cf. chapitre 4). En pratique, ces conditions sont rarement 
satisfaites. 

Nous avons p variables à notre disposition et nous supposons, comme nous 
l'avons toujours fait dans ce livre, que la constante (la variable 1) fait partie des 
variables candidates. Nous pouvons donc étudier (27 —1) modèles en considérant 
tous les modèles possibles ou, si nous forçons la variable 1 à être dans tous les 
modèles, (2/1) modèles. Comment alors choisir le meilleur modèle parmi ces 
modèles ? Il faut donc définir un critère quantifiant la qualité du modèle. Ce 
critère dépend de l’objectif de la régression. Une fois le critère choisi, il faudra 
déterminer des procédures permettant de trouver le meilleur modèle. 

Essayons dans un premier temps de rappeler les objectifs de la régression. 
Mallows (1973) a proposé la liste suivante : 


a. Description 
Si le but avoué est de décrire la variable à expliquer et si le critère à 
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minimiser est celui des moindres carrés, il semble indiqué de choisir le 
modèle ayant la plus petite erreur résiduelle ou le plus grand R?. Le 
modèle ayant toutes les variables, c’est-à-dire le modèle complet, va alors 
être le modèle retenu. 


. Estimation des paramètres 


Lorsque les paramètres sont estimés dans des modèles plus petits que 
le modèle complet (des variables explicatives sont enlevées du modèle 
complet), les estimateurs obtenus dans ces modèles peuvent être biaisés. 
En contrepartie, leur variance peut être plus faible que la variance des 
estimateurs obtenus dans un modèle plus « gros ». Un critère prenant 
en compte ces deux caractéristiques est l’erreur quadratique moyenne 
(EQM) que nous définirons. 


. Prévision 


Le but de l’étude est de prévoir le mieux possible des nouvelles observa- 
tions. Pour comparer des modèles sur cette base, nous supposerons que 
nous recevrons de nouvelles observations notées (X*, Y*) et nous compa- 
rerons l'erreur de prévision effectuée par chaque modèle. 


Cette liste succincte d'objectifs de la régression est primordiale pour choisir 
le critère de sélection d’un sous-ensemble de variables parmi les p variables 
initiales. Reprenons cette liste et essayons de voir les estimateurs qui pourraient 
être utilisés : 

a. Description 


Nous pouvons comparer les modèles via la comparaison des valeurs ajus- 
tées Ÿ. Dans tous les cas, nous obtenons un vecteur Ÿ de R”" et donc, 
quel que soit le modèle utilisé, nous avons le même objet à analyser. Nous 
pouvons également analyser la SCR. 


b. Estimation des paramètres 


Nous pouvons comparer les modèles via les estimateurs des paramètres ô 
ou via Ÿ. Cependant la taille des ô est différente d’un modèle à l’autre. 
Une façon de procéder consiste à comparer la partie commune des b, 
cela revient à travailler sur les composantes de ô qui correspondent aux 
variables utilisées dans le modèle le plus petit. 


. Prévision 


Nous pouvons comparer les qualités prédictives des différents modèles en 
utilisant un second jeu de données par exemple. 


Avant de présenter en détail les différentes procédures et les différents cri- 
tères de choix, il nous semble important de bien comprendre sur un exemple 
ce qui se passe lorsque l’ensemble de variables sélectionnées n’est pas le bon (si 
cet ensemble existe). 


Les notations que nous utilisons sont : 
— X est la matrice composée de toutes les variables explicatives (de taille 


n x p); 
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— £ est un sous-ensemble (d'indices) de {1,2,...,p}, son cardinal est noté 
lél et £ est le sous-ensemble complémentaire de cardinal p — |£|; 

— X£ est la sous-matrice extraite de X dont les colonnes correspondent aux 
indices contenus dans £ ; 

— Dans le modèle £ sélectionnant |£| variables, les paramètres associés aux 
variables sont notés Be ; 

— Les coordonnées d'indice £ du vecteur À sont notées [ôle. En général, 
[le À Be sauf si S(Xe) L S(XE): 

— Si nous disposons d’une nouvelle observation x* = [x?’, re], nous avons 
les prévisions suivantes : 


ÿP = x 0 ge = re be. 


6.2 Choix incorrect de variables : conséquences 


L'objectif de cette section est de bien comprendre les conséquences d’un 
mauvais choix des variables explicatives. Par « choix », nous entendons soit en 
prendre trop peu, soit en prendre le bon nombre mais pas les bonnes, soit en 
prendre trop. Nous allons analyser un exemple simple et généraliser ensuite 
les résultats. L'exemple que nous traitons dans cette partie est le suivant : 
admettons que nous ayons trois variables explicatives potentielles X1, X2 et 
X3 et que le vrai modèle soit 


Y = iXi + H2Xo + € = Xp + €. 


Une variable ne sert donc à rien mais ce fait n’est pas connu de l’utilisateur de la 
régression. Nous pouvons donc analyser sept modèles différents, trois modèles 
à une variable, trois modèles à deux variables et un modèle à trois variables. 
Nous analysons les 7 modèles mais ne précisons les calculs que lorsque £ = {1}. 
Nous obtenons alors comme estimateurs : 


Bi = (XX) AY 
M = PxY 
6 = |Px:Y|?/(n—1). 


6.2.1 Analyse du biais des estimateurs 
Analysons le biais de ces estimateurs en nous servant du vrai modèle EY — 
BiX1 + BaX9 = X12012. 
Ef = (XX) IXIEY = Bi + (XIX1) Xi X202 
EY = Xi + Px, X2B2. 


Le biais est donc : 


B() = E()-/@=(XIX1) lX1X20 


B(%) = E(f)-E(Y) = Px; X2f2 — Xof2 = Pyi Xoo. 
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La matrice de projection orthogonale Px1 est non aléatoire (le choix de X 
ne se fait pas en fonction des données), nous pouvons sortir cette matrice de 
l'espérance. La trace d’un projecteur est la dimension de l’espace sur lequel on 
projette, nous avons donc : 


1 1 
E6? — Et (Y'PxrY) — tr(Pxs E(YY”)) 
1 1 
= Ps (VO) HEME()) = 07 + BiaXi2Pys Kio 
= + ——@Px: Xl? 


Le biais vaut alors : 
B(&?) = he 2||Py1 Xoll? 
(2) = ——HlPxs Xl. 


En effectuant les calculs pour les 7 modèles possibles, nous avons le tableau 
6.1. 


Tableau 6.1. Biais des différents estimateurs. 


modèle estimations propriétés 
Pre 1 : (M1) = Px1 X202 

A X A 

= — 1 — B(6?) = = B||Px1 X2|? 
Ye Y2 Fa | B(P) = Px X161 

22 _ Mxx B(62\ = 1 gl P., X.Il2 

O2 n 1 63) — il Xi 1 
Fais Y3 He ; B(Y3) = Pxa Xi2B12 

A + A 

63 — en B(63) = mx iaXi2Px Xi2B 


( 
( 
( 
( 
( 
Yi2 = X12012 B( 0 
P,iY 
ôf2 — —— B(6i2 = 0 
é G 
( 
( 
( 
( 
( 


D 


Y = Xi2/12 + € 


Yi3 = À B 
Y = Xisñs+e 13 13013 : 


__ 1 / / 
= 55012 Xi Pxi X12012 
= Pxi X12012 


CN re ! ! 
023) — 752 Xi2Pxi Xi2012 


Y = Xo23023 + € 


Re) 
D 
< 


Y = X1930193 + € 
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Nous constatons alors que dans les modèles « trop petits» (ici à 1 variable), 
c’est-à-dire admettant moins de variables que le modèle « correct » inconnu 
du statisticien, les estimateurs obtenus sont biaisés. 

À l’inverse, lorsque les modèles sont « trop grands» (ici à 3 variables), les 
estimateurs ne sont pas biaisés. Il semblerait donc qu’il vaille mieux travailler 
avec des modèles «trop grands », ce qui est contraire au principe de parcimonie. 


Nous pouvons énoncer un résultat général (cf. exercice 6.2) : 


Proposition 6.1 
1. Be est en général biaisé. 
2. 6ë est en général biaisé positivement, c’est-à-dire que, en moyenne, l’es- 


pérance de ôë vaut o? plus une quantité positive. Rappelons que 6? n’est 
pas biaisé. 


3. ÿe est en général biaisé. 


L’estimation du biais est difficile car nous ne connaissons pas +/f#. Cepen- 
dant si le critère de choix de modèle est le biais, l’utilisateur conservera le 
modèle ayant le plus de variables explicatives. Or l’analyse de la variance des 
estimateurs va nous montrer que ce choix n’est peut-être pas le bon. 


6.2.2 Analyse de la variance des estimateurs 


Analysons maintenant la variance des estimateurs 


Y = Xibi +e V(Bi) = (XIX1) lo? 
= 2 _ XX: Xi X9 2 
Y = Xi2012 + € V(bi2) = ( XX œ 
| XIX: XIXo XIXe 
Y = X1930193 +€ V(bis3) = HAINE NX or: 
XX; 


Les dimensions des estimateurs varient avec la taille du modèle. Cependant, en 
nous servant de la formule d’inverse par bloc donnée en annexe, nous pouvons 
montrer que les estimateurs des composantes communes ont des variances plus 
faibles dans le modèle le plus petit : 


V(b1) < V([Bi2h) < V(Bi23l1). 


Si nous travaillons avec les valeurs ajustées, nous avons le même phénomène : 


Y = Xi +e V(M) = Pxo? 
Y = Xy2019 + € V(Y2) = Px30°7 = Px,0° + Px,nx1 0° 


Y = Xyosos +€ Vis) = Px230° = Px10° + Pysnxi 0°: 


Nous pouvons énoncer un résultat général (cf. exercice 6.3) : 
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Proposition 6.2 
1 V([ôle) — V(e) est une matrice semi-définie positive, ce qui veut dire que 
les estimateurs des composantes communes aux deux modèles sont mieux 
estimées (moins variables) dans le modèle le plus petit. 


2. La variance des données ajustées dans le modèle le plus petit est plus faible 
que celle des données ajustées dans le modèle plus grand V(Y) > V(Ÿe). 


Si le critère de choix de modèle est la variance, l’utilisateur choisira des 
modèles admettant peu de paramètres à estimer! En général, il est souhai- 
table d’avoir un modèle précis en moyenne (faible biais) et ayant une variance 
faible. Nous venons de voir qu’un moyen simple d’atteindre le premier objectif 
consiste à conserver toutes les variables dont nous disposons alors que le second 
sera atteint en éliminant beaucoup de variables. L'erreur quadratique moyenne 
(EQM) va concilier ces deux objectifs et est en général le critère utilisé pour le 
choix de modèle. 


6.2.3 Erreur quadratique moyenne 


Commençons cette section par un exemple et un rappel de la définition de 
l'erreur quadratique moyenne (EQM) d’un estimateur 0 de 0 de dimension p 


EQM(6) 


Il 
E 
ns 
a 
D 

| 
D 
Se 
a 
D 
D 
KE 
le 


c’est-à-dire le biais « au carré» plus la variance. Un estimateur biaisé peut 
être meilleur qu’un estimateur non biaisé si sa variance est plus petite. Voyons 
cela sur un exemple simple qui va permettre de comprendre la balance entre 
biais et variance. 

Supposons que nous connaissions la valeur du vrai paramètre 0, ici 0 = 0. 
Supposons aussi que nous connaissions la loi de deux estimateurs O1 et 0. Ici 
ces lois sont connues et sont de la forme 0 = W(—0.5,1) et à = NW(0,32). Nous 
savons donc que 61 est biaisé, car E(6:) — —0.5 0 mais pas Ü. A priori, 
nous serions tentés de prendre do, puisqu’en moyenne il tombe sur le vrai para- 
mètre 0. Si nous souhaitons comparer plus attentivement ces deux estimateurs 
nous traçons leur densité. La densité contient toutes les informations sur ces 
estimateurs. La figure 6.1 présente les densités de ces deux estimateurs et un 
intervalle de confiance à 95 % de ceux-ci. Nous voyons bien que si nous choisis- 
sons à, la distance entre le vrai paramètre et une estimation est, en moyenne, 
plus faible que pour le choix de >. La moyenne de cette distance euclidienne 
peut être calculée et c’est l’'EQM. Ici l'EQM de di vaut 1.25 (biais au carré 
+ variance) et celui de > vaut 3 donc le choix de Ü est plus raisonnable que 
Oo : en moyenne il ne vaudra pas la valeur du paramètre, il est biaisé, mais en 
général il & tombe » moins loin du paramètre car il est moins variable (faible 
variance). 
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5 0 5 


Fig. 6.1. Estimateurs biaisé et non biaisé. En trait plein est figurée la densité 
de l’estimateur biaisé (en haut) et non biaisé (en bas). La droite verticale est 
le vrai paramètre réel à estimer. Le segment horizontal épais figure l’étendue 
correspondant à 95 % de la probabilité. 


L'EQM permet donc de comparer les estimateurs d’un même paramètre 
fixe. Il est le résultat d’un équilibre entre le biais et la variance, qui réagissent 
en général en sens contraire. 

Revenons au problème de la régression où nous avons plusieurs ensembles de 
variables £. Nous allons utiliser l'EQM comme mesure de comparaison. Nous 
pouvons comparer soit des estimateurs Be € RP, soit des valeurs ajustées 
tte € KR, où Te correspond à une ligne de la matrice Xe, soit des valeurs 


prévues rt Be € R, où x£ € IR? est une nouvelle observation. Il est classique 
de traiter le choix de variables via l’analyse de la valeur ajustée ou de la valeur 
prévue et non pas via les estimateurs Be dont les dimensions varient avec |£|. 
Les définitions que nous allons introduire de l'EQM et de l’'EQM de prévision, 
notée EQMP, seront adaptées à notre problème. 

Définition 6.1 (EQM) 

Considérons le modèle de régression Y = XB +£e où B, le paramètre inconnu 
du modèle, peut avoir des coordonnées nulles. Soit x € IR? le vecteur colonne 
d’une observation, nous avons ze € Ré! et Be l’estimateur des MC' obtenus 
avec ces |£| variables. L'erreur quadratique moyenne est définie par 


EQM(ge) = E((aeBe — 28)°) = V(æele) + B°(xebe), 
où B(x!.0e) = E(x! Be) — x'B est le biais de ze be. | 
Si nous possédons n observations te regroupées dans une matrice Xe et De 


l’estimateur des MC obtenu avec ces |[£| variables, nous définissons la trace de 
la matrice de l’'EQM par 


tr(EQM(Ÿe)] = tr[V(Xebe)] + B(Xebe) B(Xebe). 
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Nous pouvons développer le calcul de la décomposition de l'EQM pour les 
valeurs ajustées avec le modèle € 


triV(Xebe)] + B(Xeûe) B(Xebe) 
= triV(PxY)]+ (E(XeËe) — XB) (E(Xebe) — X8) 
Elo? +1 — Px.)X81f. 


tr[EQM(Ÿ-)] 


Il 


Il 


(6.1) 


Afin de pouvoir sortir Px, de la variance, il faut que Px, soit fixe et donc 
que le choix du modèle X£ ne dépende pas des données sur lesquelles on évalue 
le projecteur. Si le choix des variables à été effectué sur le même jeu de don- 
nées que celui qui sert à estimer les paramètres, nous devrions considérer un 
terme de biais supplémentaire appelé biais de sélection. Nous reviendrons sur 
ce concept à la fin du chapitre. 


Revenons à l’exemple et calculons l'EQM des 7 modèles 


Y = Xi + BXo + € = Xi + €. 


Considérons le modèle avec une variable X;, nous avons pour la tr(EQM), en 
nous servant de H: et des propriétés des projecteurs (symétrie, idempotence et 
trace) : 


tr(EQM(X1%1)) = tr(V(Xi@)) + B(X1) B(X1B) 
= tr(V(Px,Y)) + EX) — X12812||? 
= o°tr(Px,) + |E(Px, (X12019 + €)) — X12812||° 
"+ I Px1 X1201 Fe 


Nous avons donc : 


tr(EQM(X1B)) = 0° +||Pxs X12812||? 
tr(EQM(X2B)) = 0° +||Pxs X12812||? 
tr(EQM(X 363) = o°+ I Px Xi262||° 
tr(EQM(Xiofo)) = 20? 
tr(EQM(Xi303)) = 20° +||Pxs, X12912||? 
tr(EQM(X 23/03) = 20° +||Px,, X12912|? 
tr(EQM(X1230123)) — 302. 


Le choix du modèle ayant la plus petite tr(EQM) parmi les sept modèles initiaux 
revient à analyser la tr(EQM) des quatre modèles suivants : 


tr(EQM(X141)),  tr(EQM(X262)), 


tr(EQM(X363)) et 


tr(EQM(X 12012). 
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Supposons maintenant que nous connaissons les autres quantités inconnues 
et que la plus petite norme soit celle de | Px X12/H12||?. Il nous faut donc choisir 
entre 


tr(EQM(X 14) = 0? + || Pyi Xio@2f? et  tr(EQM(X12012)) = 20°. 


Afin de choisir le modèle ayant la plus petite tr(EQM), il faut comparer a? à 


I Px4 X12H12||?. Cela sera donc le modèle X1 ou le modèle X12, tout dépendra 
de la valeur de a? et de || Px1 X12H12||°. Nous constatons que selon ce critère 
nous pouvons éventuellement choisir le modèle 1, c’est-à-dire un modèle un peu 
faux (le terme de biais) mais plus précis (la variance est plus faible) que le vrai 
modèle. 


___  EQM 
Variance 
Pres Biais au carré 


EQM 


Je 


Biais élevé Biais faible (nul) 
Faible variance Taille du modèle Variance élevée 


Fig. 6.2. Compromis biais?/variance dans la cas où EQM(1) > 20°. 


Il est en général difficile d’estimer le biais car la valeur du paramètre est 
inconnue, il est par contre plus facile d’estimer la variance. Nous verrons dans la 
suite de ce chapitre des procédures pour estimer l’'EQM, mais dans un premier 
temps il semble plus facile de considérer « le frère jumeau » de l'EQM, l'EQMP 
ou sa trace. 


6.2.4 Erreur quadratique moyenne de prévision 


L’'EQM ou sa trace est un critère classique en statistique, mais il ne fait pas 
intervenir de nouvelles observations Y*. Si l’on souhaite donc évaluer le coût 
de prévision de ces nouvelles observations Y * nous avons la définition suivante. 
Définition 6.2 (EQMP) 

Considérons x* € IR?, une nouvelle observation, et TÉ ses composantes COTTes- 
pondant à £. L'erreur quadratique moyenne de prévision est définie par 


EQMP (9e) = E((xt' 0e — y*)?) = EQM(x'Âe) + 0? — 2E([xt" le — 2*'Ble*). 


152 Régression - Théorie et applications 


Si E* n’est pas corrélé avec les €, nous avons alors 
EQMP(ÿ£) = EQM(xi Ge) + 0°. 


Si nous possédons n* nouvelles observations x* regroupées dans une matrice 
X* nous utilisons la trace de l’'EQMP 


trlEQMP(Ÿ?)] = tr[EQM(X* 6)] Lhtors 2E((Xê — X*BV'e*). 
Si E* n'est pas corrélé avec les €, nous avons alors 


tr{EQMP(9?] = Etr(QM (axé fe)] + n*o?. 


— Nous pouvons constater que si les données sur lesquelles se fait la pré- 
vision sont indépendantes des données sur lesquelles sont calculées les 
estimations (deux jeux de données différents), alors l'EQM et l'EQMP 
sont identiques à la variance de l'erreur près. 

Reprenons l'exemple précédent 


Y = fiXs + P2Xo + € = Xiofo + € 


et supposons que nous ayons n* nouvelles observations concaténées dans 
la matrice X*. Nous avons alors 


t(EQM(XYB)) = (n° +1)o? + |Pxi Xfo02||? 
(EQM(X3D)) = (n° +1)o? + ||Pxs Xi202||? 
tr(EQM(X3 63) = (n° +1)" + ||Pxs Xi2B2||° 
tr(EQM(X 2 612) — * +2)? 
t(EQM(X ss) = (n° +2)? + | Pxs Xl? 
tr(EQM(X33/23)) = (n° +2)? + |Pxs XfB|? 
tr(EQM(X 30123) = (n*+3)o*. 


— Si nous appliquons la formule de l'EQMP aux données X, nous obtenons 


tr(EQMP(Ÿ)) = E|Ÿ -y|? 
= tr(EQM(XB)) + no? — 2E((XB — XB,e)) 
= tr(EQM(XB)) + no? — 2E((XB,e)) 
= tr(EQM(XB)) + no° — 2E(e'Pxe) 
= tr(EQM(XÉ)) + no? — 2po°. 
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— Si nous calculons la tr(EQMP) théorique des trois modèles, nous obtenons 


tr(EQMP(ŸY(X1)) = |PxiX8]7 + o°(n —1) 
tr(EQMP(Ÿ(X1)) = o?(n—2) 
tr(EQMP(Ÿ (X23))) = o7(n—3). 


La tr(EQMP) préconise d’utiliser le modèle ayant le plus de variables 
explicatives. En fait ce critère n’a pas de sens lorsqu'il est utilisé sur les 
données qui ont servi à estimer les paramètres. 
Nous pouvons maintenant résumer toutes les conclusions tirées au cours de 
cette section en une démarche à suivre pour la sélection de variables. 


6.3 La sélection de variables en pratique 


6.3.1 Deux jeux de données ou beaucoup d’observations 


Si nous disposons de deux jeux de données, l’un d’apprentissage (X,Y) 
pour estimer le modèle et l’autre de validation (X*,Y*), nous pouvons estimer 
lEQMP en utilisant l'erreur de prévision (ou MSEP) 


_—— 


! Ps 1 _ 
W(EQMP(YE)) = IV - VE = SIT - Xe”, (6-2) 


où Be est l’estimateur des coefficients utilisant le jeu de données d’apprentissage 
uniquement. Nous avons un estimateur de tr(EQMP). 

Il suffit donc, pour tous les ensembles £ de variables explicatives, de calculer 
la trace de l’'EQM. Les variables sélectionnées Ë sont celles dont la trace de 
l'EQM associé est minimale. 

Deux problèmes importants sont à noter. 


1. Il faut posséder suffisamment d'observations, tant dans le jeu d’appren- 
tissage que dans le jeu de validation. Il faut suffisamment de données 
pour pouvoir bien estimer dans le jeu d'apprentissage et suffisamment 
dans le jeu de validation pour avoir une bonne idée du comportement 
« moyen » du modèle. 


De plus, nous avons rarement deux jeux de données. Une possibilité 
consiste alors à séparer le jeu initial en deux parties, l’une réservée à 
l'apprentissage, l’autre à la validation. Cela nécessite donc beaucoup d’ob- 
servations. 


Évidemment il n’est pas possible de donner de règle quant à la taille 
minimum n requise. De même, pour les tailles respectives n, et n, des jeux 
d'apprentissage et de validation, sont souvent énoncées les proportions 
3/4,1/4 ou 1/2,1/2 sans aucune véritable justification. 
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2. Le second problème réside dans l’obligation de calculer la trace de l'EQM 

pour tous les ensembles £ possibles. Cela nécessite de l’ordre de 2? calculs 
de la trace de l'EQM. Dès que p est grand (p > 6), cela devient presque 
impossible. Des algorithmes adaptés sont alors nécessaires mais aucun 
logiciel, à notre connaissance, n’en propose. 
Nous proposons toujours de travailler avec un échantillon d’apprentis- 
sage et un échantillon de validation. Sur l'échantillon d'apprentissage, le 
statisticien choisit des modèles en utilisant les critères et les algorithmes 
de sélection que nous allons présenter dans les sections suivantes. Ces 
méthodes sont implémentées dans tous les logiciels. Selon le critère de 
sélection choisi (AIC, BIC, C,, test entre modèles, voir section 6.4) et 
l'algorithme utilisé, l'utilisateur aura un ou plusieurs modèles candidats. 
Parmi ce nombre restreint de modèles candidats, il suffit alors d'utiliser 
l'échantillon de validation pour choisir le modèle qu’il va conserver et 
étudier. Bien entendu, cette démarche ne permet pas d’envisager tous les 
modèles, mais elle reste la méthode pratique recommandée dès que cela 
est possible, c’est-à-dire dès que n est suffisamment grand. 


6.3.2 Un seul jeu de données et peu d’observations 


En général, le statisticien ne dispose que d’un jeu de données. Quand le 
nombre n d'observations est trop faible pour pouvoir séparer le jeu de données 
en 2 parties, un critère de choix de modèle doit être utilisé. La section suivante 
discute des critères classiques. Le grand avantage de ces critères réside dans le 
fait qu’ils sont disponibles dans tous les logiciels de statistiques. 

Une autre solution, proche de la méthode de la section précédente, existe. Ici, 
le nombre d’observations étant trop faible pour avoir suffisamment de données 
dans le jeu de validation et dans le jeu d’apprentissage, nous séparons le jeu 
de données en B blocs disjoints. Chaque bloc possède n, observations sauf un 
dont la taille est ajustée sur les observations restantes (n — (B — 1)n,). Un 
bloc k est mis de côté et il sert de jeu de validation. Les autres B — 1 blocs 
servent d'apprentissage. Sur ces B — 1 blocs restants, on estime, pour tous les 
ensembles £ de variables, les paramètres notés Be. On calcule ensuite la trace 
de l'EQMP sur le k° bloc (de validation) 


ense M. … 1 . 
tr(EQMP( (F2) DO = Ir PB, 


1 
nl 
où Be est l’estimateur des coefficients utilisant les B — 1 blocs d’apprentissage 
uniquement et (X(%),Y(#)) sont les données du k° bloc. Le k° bloc possède ny 
observations (qui vaut en général n, sauf pour le dernier bloc). Cette procédure 
est réitérée pour tous les blocs k variant entre 1 et B et on calcule donc pour tous 


les ensembles £ possibles la moyenne > à tr(EQMP(* (Ÿ?))/B. Le modèle 


sélectionné est bien sûr le modèle Ë qui minimise cette moyenne. La procédure 
est une procédure de validation croisée de taille B (B-fold cross-validation). 
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Nous sommes toujours confrontés aux mêmes problèmes, à savoir le choix 
de B (et donc de la proportion de l’apprentissage par rapport à la validation). 
En général, l’ordre de grandeur de B est 10, si le nombre d’observations par 
bloc est suffisant. Le second problème réside dans le fait qu’il faille calculer le 
critère de choix, sur tous les ensembles de variables £. Cette procédure n’étant 
pas implémentée dans les logiciels, la démarche pratique consiste à sélectionner 
un petit nombre de modèles candidats par des critères de sélection classique, 
puis à les comparer par la procédure de validation croisée de taille B. 


6.4 Critères classiques de choix de modèles 


Nous allons dans ce chapitre nous intéresser aux méthodes classiques de 
sélection de modèle. Les principaux critères de choix sont le R?, le R2, le C;, 
P'AIC, le BIC et leurs extensions. D’un autre côté, le test F entre modèles 
emboîtés permet de comparer selon une approche de type test classique les 
modèles entre eux. Quand ceux-ci ne sont pas emboîtés l’un dans l’autre, une 
approche basée sur des intervalles de confiance peut être utilisée. Cependant 
cette approche moins répandue (Spjotvoll, 1972) n’est en général pas implémen- 
tée dans les logiciels. Le lecteur intéressé par cette approche pourra consulter 
la description de Miller (2002). 


Nous allons présenter différents critères de choix de modèles et l’appliquer 
aux données de l’ozone. Nous allons traiter les 50 données fournies en annexe. 
Il y à donc n = 50 observations, la constante sera toujours dans le modèle et 
nous avons 9 variables explicatives potentielles. Sur ce jeu de données, nous 
pouvons analyser 512 (2°) modèles (la constante est dans tous les modèles). 


6.4.1 Tests entre modèles emboîtés 


Si les modèles concurrents sont emboîtés les uns dans les autres, il est alors 
possible d’utiliser une procédure de test (3.2 p. 63). Notons le modèle £ à lé] 
variables et le modèle £}1 correspondant au modèle £ auquel on a rajouté une 
variable supplémentaire. Afin de choisir entre ces deux modèles emboîtés, nous 
avons la statistique de test suivante (cf. p. 63) : 


_ SCR(E) - SCR(EH) 


F 2 


(04 


Afin que F suive une loi Fisher, l'estimation de 6? doit suivre une loi du x? 
indépendante du numérateur. Classiquement o? est estimé de deux manières 
différentes : 
1. Estimation de a? par SCR(£,1)/(n — |£| — 1). 
L’estimateur utilisé de o? est celui provenant du modèle le plus « grand », 
soit le modèle (£,1). Cette solution est en général utilisée par les logiciels 
de statistiques ; 
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2. Estimation de ao? par SCR(p)/(n — p). 
L’estimateur utilisé provient de l’estimateur trouvé pour le modèle com- 
plet. 


Nous avons donc le théorème suivant. 


Théorème 6.1 (Tests entre modèles emboîtés) 

Soit deux modèles, le modèle £ et le modèle £,1. La statistique de test permettant 
de tester l'hypothèse H; :  EY € MX, contre l'hypothèse H1 : EY € 
Me , est 


1. La variance ao? est estimée par SCR(£;1)/(n — |£| — 1). Si 


SCR(£) — SCR 
Pn STONE x (n— [él —1) > fin-je-1(1 — a) 


alors le modèle £ est repoussé au profit du modèle (£}1), nous rajoutons 
une variable au modèle. 


2. La variance o? est estimée par SCR(p)/(n — p). Si 


Be RE ED x (np) > imp = 0) 


alors le modèle £ est repoussé au profit du modèle (£,1), nous rajoutons 
une variable au modèle. 


Il est difficile de comparer ces deux manières de procéder. Notons toutefois 
que [é41| < p donc n — |é| —- 1 > n — p, ce qui implique que fin-,(1 — à) > 
dat — a). 


6.4.2 Le R° 


Le R? est défini via la SCR, en effet 


_ IP) — #11? SCR(£) 


2 
R'(6) IX 91 SCT 


Il s’agit d’un critère relié à l’estimateur de l'EQMP (i.e. SCR(£)) et nous avons 
donc que la valeur du R? augmente toujours avec le nombre de variables lé]. 
Comparons la variation du R?(£) obtenu avec les £ variables et le R? obtenu 
avec les mêmes £ variables plus une autre variable, soit R?(£,1). Nous avons le 
graphique général suivant. 
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R?2 


Taille du modèle 


Fig. 6.3. R? théorique. 


Montrons en effet que le R? ne peut pas diminuer : 
PISE 
IY — #11? 
IP ess PSE Px.Pxe. Y|? — || Px.Y|P 
IY — ÿ1|? 
PE Ps. YIP 
IY 91 


R°(£+1)—R°(6) = 


Bien entendu le même résultat est obtenu avec la définition du R? quand les 
deux modèles ne contiennent pas la constante (2.3, p. 45). 


En général, il ne faut donc pas utiliser le R? comme critère de choix de mo- 
dèle car ce critère va toujours augmenter avec le nombre de variables. Il peut 
cependant servir à comparer des modèles ayant le même nombre de variables 
explicatives. 


Voyons cela sur l’exemple de l’ozone : 


R? 
Ô 


0 00e mmaonane 
00 emma 
comes 
0 an meme 
° co æmæ 

0 
o 


0® 0000œ 0 00800œ 0 


c oo o 


Taille du modèle 


Fig. 6.4. R? pour les 511 modèles possibles de l'exemple de l’ozone. 
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Nous savons que cette quantité croît avec le nombre de variables inclues 
dans le modèle et ce résultat se retrouve sur le graphique (fig. 6.4). Le R? ne 
permet pas de choisir entre différents modèles. De manière classique on parle 
alors d'ajustement de qualité croissante des données : le R? augmente, la SCR 
diminue, donc l’erreur estimée est de plus en plus petite et donc les ajustements 
Ÿ sont de plus en plus proches de Y. On ne parle pas de prévision puisqu'on à 
utilisé les Y pour estimer Ÿ. Par contre, à taille fixée, le R? permet de comparer 
les modèles entre eux et de sélectionner celui qui donne le meilleur ajustement. 

En considérant le graphique 6.4, le meilleur modèle au sens du R? est donc 
celui avec 10 variables. Cependant la valeur du R? obtenue pour le meilleur 
modèle à 5 variables est relativement proche de la valeur du R? obtenue avec 
le modèle complet. L'utilisateur pourra peut-être considérer ce modèle. 


6.4.3 Le R° ajusté 


Le R? ajusté est défini par 


RE) = 1-2 (1-R#E) 
: n—1 SCR(E) 
_ n—|lé| SCT 
_ ,_"-1SCR() 
SCT n-{lé| 


Le R? est donc fonction des carrés moyens définis comme la somme des carrés 
divisée par le nombre de degrés de liberté. Le but est de maximiser le R2, ce 
qui revient à minimiser SCR(£) divisée par son degré de liberté. La SCR et 
n — |£| diminuent lorsque || augmente. Le carré moyen résiduel CMR(É) peut 
augmenter lorsque la réduction de la SCR, obtenue en ajoutant une variable 
dans le modèle, ne suffit pas à compenser la perte d’un ddl du dénominateur. 
Nous obtenons alors en général le graphique suivant pour la SCR /ddl et le R2 
ajusté : 


À À 


SCR/ddl 


Taille du modèle Taille du modèle 


Fig. 6.5. CMR et R?. 
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Voyons maintenant le critère du R2 sur l’exemple de l’ozone : 


e 
5 4, D | À € à 
S | «+ 8 ° 
ë | [] Q 8 ° 
ë i 8 ° 
+ | 8 À 8 e 
s $ 8 de 
° 
8 
NS 2 8 8 ° 
s: 8 8 ° 
24 RL. 
8 8 e 
ie 
S 13 ° 
2 4 8 10 


Taille du modèle 


Fig. 6.6. R°? ajusté pour l'exemple de l’ozone. 


Sur le graphique précédent, l’utilisation du R? nous conduirait à choisir un 
modèle à 5 ou 6 variables. 
6.4.4 Le C, de Mallows 

La définition du C, de Mallows (1973) est la suivante. 


Définition 6.3 
Le C,(£) d’un modèle à £ variables explicatives est défini par 


CE = SAS n + 281 (6.3) 


où SCR est la valeur de la SCR(É) dans le sous-modèle caractérisé par £ alors 
que 6? est un estimateur sans biais de o?. En général 6? a été estimé dans le 
modèle complet à p variables. 


Remarque 
Rappelons (6.1) que si Px, est non aléatoire 


tr(EQM(Ÿ)) = lélo?+1|( - Px.)XA/?. 
Calculons l'espérance de la somme des carrés résiduels : 


E(SCR(£)) = E(|Y - Y|?) 
E(||(Z — Px.)XB + (1 — Px.}ell*) 
ICT — Px.)X 81 + (n — lél)o*. 


Il 


En remplaçant, nous obtenons 


tr(EQM(Ÿe)) = E(SCR(E)) — (n — 2l)o? 
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Nous voyons donc que 6? C, est un estimateur sans biais de la trace de 
l'EQM. Apparemment le modèle avec le 4? C, le plus faible sera (en moyenne 
du moins) le modèle avec la tr(EQM) la plus faible et donc la tr(EQMP) la 
plus faible. 


Cependant, pour que ce précédent calcul d’espérance soit valide, il faut, 
outre les hypothèses classiques (indépendance du bruit, homoscédasticité et 
X fixé) que l'égalité E(Px,Y) = Px,E(Y) soit vérifiée. C'est-à-dire que Px, 
est fixe et donc le choix du modèle X£ ne dépend pas des données sur lesquelles 
on évalue le C,. 


Autrement dit, pour que le C,, ou plus exactement 6? C,, soit un bon estima- 
teur de l’'EQM, il faut que l’estimation des paramètres et le choix des modèles 
ne dépendent pas de données sur lesquelles on calcule le 64? C,,. Ce critère est 
donc un estimateur sans biais uniquement si l’on a au moins deux jeux de don- 
nées distincts, l’un d'apprentissage sur lequel on estime les coefficients et l’autre 
de validation sur lequel on calcule les C,,. Si l’on utilise un seul jeu de données 
pour sélectionner le modèle et estimer les paramètres, ce qui est l’utilisation 
traditionnelle du C,, l’estimateur du C, est biaisé. Ce biais de sélection sera 
calculé en détail sur un exemple. En conclusion, avec un jeu de données, sélec- 
tionner un modèle avec le C, ne revient pas à sélectionner avec un estimateur 
raisonnable de l’'EQM. 


Dessiner le C,,(£) 


En général, nous dessinons en abscisse la valeur de lé] et en ordonnée la 
valeur correspondante de C,(£) pour tous les modèles. Ce dessin est en général 
peu lisible et on préfère retenir le meilleur modèle à £ variables et dessiner les 
p valeurs de C,(£) en fonction de |é| (fig. 6.7). 


Q 
# (I 
[e] 
e 
è ° a 
8 5 n 
$ , $ 
5 4 à 
CACE RE 8 a © 
OU e ; OT 
Ch i ; $ g r L 
$ ; | | ! : 
è . n : 
al n 8 ° * 
a É | | | | : ° 
. $ L 
SL | Je | | 
2 4 6 8 10 2 4 6 8 10 
Taille du modèle Taille du modèle 


Fig. 6.7. Choix du C, pour l’exemple de l’ozone, 511 modèles, ou meilleur 
modèle pour chaque taille possible. 
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Choisir le modèle grâce au C,(£) et interpréter 


Classiquement il est recommandé de choisir le modèle admettant 


Ch(£) < lé]. 


Le choix du modèle via le C,(£) sera le modèle dont la valeur du C,(£) sera 
proche de la première bissectrice (y = |é|). 


Taille du modèle 


Fig. 6.8. Choix du C, pour l'exemple de l’ozone. 


Au vu de ce graphique, les modèles admettant plus de 4 variables sont suscep- 
tibles d’être sélectionnés. 


Interprétation 


Plus le modèle est explicatif, plus la quantité SCR(É£) est faible. Cette quan- 
tité diminue si l’on ajoute des variables à un modèle donné puisque l’on projette 
sur des sous-espaces de taille croissante. Le critère C;, permet donc un équi- 
libre entre un faible nombre de variables (|é| faible) et une SCR(£) faible. Il 
est possible de généraliser le C,, en remplaçant le coefficient 2 qui assure la 
« balance >» par une fonction des données notée f(n) qui soit différente de 2. 
Si le modèle est correct (si les variables intervenant dans le modèle ont été 
sélectionnées sans utiliser les données), alors SCR(£) est un estimateur sans 
biais de (n — |é|)o? et C,(£) vaudra approximativement |£|. Cette interpréta- 
tion n’est valable que si le C, (£) est calculé avec d’autres données que celles qui 
permettent le choix de €. A la fin de ce chapitre, une section intitulée « Pour 
aller plus loin » présente en détail ce problème. 

Si nous rajoutons des variables qui n’interviennent pas dans le modèle, la 
SCR ne va pas beaucoup diminuer mais |£| va augmenter, nous aurons alors un 
CL(£) qui sera plus grand que lé]. 

Si nous avons omis des variables importantes, la SCR sera un estimateur de 
(n — |£|)a? et d’une quantité positive. Le C,(£) sera donc plus grand que |é]. 
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6.4.5 Vraisemblance et pénalisation 


Sous l’hypothèse de normalité des résidus, la log-vraisemblance de l’échan- 
tillon vaut (section 3.1 p. 53) 


n n 1 
log £(Y,B,o°) — 5 l080° 5 log 27 31Y X6|Ÿ. 


Le calcul de la log-vraisemblance pour le modèle admettant |é| variables vaut 
alors 


op er AR ECRe ee 2 

2 n 2 T 

Choisir un modèle en maximisant la vraisemblance revient à choisir le modèle 

ayant la plus petite SCR. Il faut donc introduire une pénalisation. Afin de 

minimiser un critère, on travaille avec l’opposé de la log-vraisemblance et les 
critères s’écrivent en général 


—2log L(£) + 211 F(n), 


où f(n) est une fonction pénalisation dépendant de n. 


L’Akaike Information Criterion (AIC) 
Ce critère, introduit par Akaike (1973), est défini pour un modèle contenant 
les variables indicées par é : 
AIC(É) = —2 log L(£) + 2/6. 


Par définition f(n) vaut 1. L’AIC est une pénalisation de la log-vraisemblance 
par deux fois le nombre de paramètres |£|. Nous obtenons une définition équi- 
valente 


SCR(£) 


n 


AIC(E) = cte + nlog + 2|é] 


L'utilisation de ce critère est simple : il suffit de le calculer pour tous les modèles 
£ concurrents et de choisir celui qui possède l’ATC le plus faible. 


Le critère Bayesian Information Criterion (BIC) 
Le BIC (Schwarz, 1978) est défini comme 


R(£) 


BIC(£) = —2log L(£) + lé| logn = cte + nlog SCA) + lé] log n. 


L'utilisation de ce critère est identique à celle de l’ATC et nous pouvons consta- 
ter qu’il revient aussi à pénaliser la log-vraisemblance par le nombre de para- 
mèêtres |£| multiplié par une fonction des observations (et non plus 2). Par défi- 
nition, f(n) vaut ici logn/2. Ainsi, plus le nombre d'observations n augmente, 
plus la pénalisation est faible. Cependant cette pénalisation est en général plus 
grande que 2 (dès que n > 7) et donc le BIC a tendance à sélectionner des 
modèles plus petits que l’AIC. 
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D’autres critères 


A titre d'exemple, Bozdogan (1987) a proposé 2f(n) = log n +1, Hannan & 
Quinn (1979) ont proposé f(n) = cloglogn où c est une constante plus grande 
que 1. Il existe de très nombreuses pénalisations dans la littérature mais les 
deux les plus répandues sont le BIC et l’AIC. 


6.4.6 Lien entre les critères 


Avec la procédure de test, nous conservons le modèle à £ variables si 


SCR(E)— SCR(EH) ©, 
SOR(EH)/(n— [6-1 


où 4 est une approximation du fractile f1,n_|e1-1(1—@). Qu'en est-il des autres 
critères ? 

Commençons par le R2. Si nous choisissons le modèle à £ variables c’est que 
nous avons 


RO RE). 
En récrivant ces termes en fonction des SCR, nous avons 


SCR() __ SCR(E) 
n — lé] n— |é+1| 
(n — lé] —1)SCR(£) 
SCR(£+1) 
SCR(E) — SCR(£+1) 
SCR(E+1)/(n — |£] — 1) 


Nous retrouvons donc une procédure de type test, mais la valeur seuil ici ne vaut 
Pas fin-le-1(1— 0) mais la valeur 1. L'utilisation du R£ et de la valeur seuil 1 
est plus facilement atteinte que la valeur seuil issue du test (car fin-1e-1(1 — 
a) > 3.84 en général lorsque n — |£| — 1 est grand). La procédure du R? ajusté 
conduit à choisir des modèles ayant un nombre de variables plus important 
qu'avec la procédure des tests. 

De la même façon, si nous choisissons le modèle à £ variables avec le C;, 
c’est que la relation suivante est satisfaite : 


Cp(é) < Cp(é+1). 


En récrivant ces termes, nous avons 


< n—|lél -1+1 


SCR(E) — SCR(£+1) 
SCR(p)/(n—p) 


Le dénominateur du C, est calculé avec toutes les variables initiales. Il faudrait 
comparer alors avec la procédure de test F2. Dans ce cas, nous retrouvons 
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l'observation de la statistique de test F qui suit une loi F(1,n— p) et la valeur 
seuil est choisie arbitrairement égale à 2. Là encore, le C, aura tendance à 
choisir des modèles plus grands que ceux choisis avec un test entre modèles 
emboîtés et une erreur de première espèce à = 5 %, mais uniquement si l’on 
choisit comme estimateur de o?, la valeur SCR(p)/(n — p). 

Pour finir, analysons le résultat obtenu avec un critère de vraisemblance 
pénalisée. Si nous choisissons le modèle à £ variables, nous avons 


—2log L(£) +2/élf(n) < —2log L(£41) + 2/é|f(n) + 2f(n). 


En remplaçant, nous obtenons 


SR) og SCREEI) 


log — + 2100) 


SCR(E) < SCR(E1)exp 2) 


n 


SCR(£) < SCR(£ 1) lexp cie di 1 + SCR(É+1). 


Nous obtenons alors 


SCR(£) — SCR(É+1) 
SCR(£+1)/(n — lé] — 1) 


<(n—lé-1) (exp 270 : 1 | 


Si 2f(n)/n est proche de 0, nous obtenons après un développement limité à 
l’ordre 1 


SCR(E) - SCR(E1) _jé+1 
SOR(E1)/(n — fé - 1) = 2/0) (: ñ À 


Nous avons alors les valeurs suivantes : 


Féest < 4 
Êre < 
Éc, < 2 
: +1 
Faic < 2 (: — se) 
nm 
a 1 
PFBic < log n (i En) , 
nm 


En fonction du nombre d'individus n et du nombre de variables sélectionnées, 
nous pouvons résumer les critères et la taille du modèle dans le tableau suivant : 
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Tableau 6.2. Comparaison des tailles |[£| des modèles sélectionnés selon le 
critère choisi avec n > 7. 


Critères classiques Taille |£| du modèle 


TEST ou BIC faible 
AIC | 
R? forte 


Il est délicat d'intégrer le C,(£) dans ce tableau car lorsque nous avons écrit 
le C,(£) sous forme de test, nous avions vu que le dénominateur est calculé 
avec la SCR(p)/(n — p). En supposant que les estimateurs de a? (dans un cas 
SCR(p)/(n—p) et dans l’autre SCR(£:1)/(n—1|£|—1)) soient presque identiques, 
la borne du CL (é) vaut 2 et celle de l’AIC vaut 2(1 — (|£| + 1)/n), l’AIC tend 


à sélectionner des modèles de taille plus grande que le C,. 


6.5 Procédure de sélection 


La sélection de modèle peut être vue comme la recherche le modèle opti- 
mal, au sens d’un critère choisi, parmi toutes les possibilités. Cela peut donc 
être vu comme une optimisation d’une fonction objectif (le critère). Pour cela, 
et à l’image des possibilités en optimisation, on peut soit faire une recherche 
exhaustive car le nombre de modèles possibles est fini, soit partir d’un point de 
départ et utiliser une méthode d’optimisation de la fonction objectif (recherche 
pas à pas). 

Remarquons qu’en général trouver le minimum global de la fonction objectif 
n’est pas garanti dans les recherches pas à pas et que seul un optimum local 
dépendant du point de départ choisi sera trouvé. Si les variables explicatives 
sont orthogonales, alors l’optimum trouvé sera toujours l’optimum global. 


6.5.1 Recherche exhaustive 


Lorsque tous les modèles avec p variables sont possibles, il y a 2? possibili- 
tés et donc cette méthode n’est pas envisageable si p est grand. Des techniques 
algorithmiques permettent cependant de minimiser le nombre de calculs à effec- 
tuer et permettent d'envisager cette possibilité dans des cas de taille modérée 
(Miller, 2002). 

Remarquons que ce type de recherche n’a aucun sens lorsque l’on souhaite 
utiliser des tests puisque cette procédure compare uniquement deux modèles 
emboîtés l’un dans l’autre. 

Pour obtenir ce type de recherche avec le logiciel GNU-R, nous utilisons le 
package leaps. 
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library(leaps) 
choix <- regsubsets(Y”X,int=-T,nbest= ,nvmax= ,method=?’exh”?) 
resume.choix <- summary(choix) 


Cette procédure évalue tous les modèles possibles, et conserve les nbest 
(valeur précisée par l’utilisateur), meilleurs modèles pour 1 variable explicative, 
2 variables explicatives, …., nvmax (valeur précisée par l’utilisateur) variables 
explicatives. 

Pour obtenir les différents graphiques, nous utilisons les commandes sui- 
vantes : 


taille <- as.real(rownames(resume.choix$wh) +1 


puis en fonction du critère utilisé : 


plot(taille,resume.choix$adjr2) 
plot(taille,resume.choix$adjr2) 
plot(taille,resume.choix$cp) 
plot(taille,resume.choix$BIC) 


6.5.2 Recherche pas à pas 


Ce type de recherche est obligatoire pour les tests puisque l’on ne peut tester 
que des modèles emboîtés. Par contre elle ne permet en général que de trouver 
un optimum local. Il est bon de répéter cette procédure à partir de différents 
points de départ. Pour les autres critères, ce type de recherche n’est à conseiller 
que lorsque la recherche exhaustive n’est pas possible (n grand, p grand, etc.). 


Méthode ascendante (forward selection) 


À chaque pas, une variable est ajoutée au modèle. 


— Si la méthode ascendante utilise un test F', nous rajoutons la variable X; 
dont la probabilité critique (fp-value) associée à la statistique partielle de 
test de Fisher qui compare les 2 modèles est minimale. Nous nous arrêtons 
lorsque toutes les variables sont intégrées ou lorsque la probabilité critique 
est plus grande qu’une valeur seuil. 

— Si la méthode ascendante utilise un critère de choix, nous ajoutons la 
variable X; dont l’ajout au modèle conduit à l’optimisation la plus grande 
du critère de choix. Nous nous arrêtons lorsque toutes les variables sont 
intégrées ou lorsqu’aucune variable ne permet l’optimisation du critère de 
choix (voir aussi fig. 6.9). 
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Modèle de départ 


Æ Modèle en cours = M0 
+ 


AIC MO moins bon 
M1 devient MO 


Ajout d’un coefficient 
1 


Choix parmi tous les modèles (+ petit AIC) 


Ps 


Modèle sélectionné =M1 


t 


Comparaison AIC modele MO et modele M1 


AIC MO meilleur 


Modèle courant MO retenu 


Fig. 6.9. Technique ascendante utilisant l’AIC. 


Méthode descendante (backward selection) 


À la première étape toutes les variables sont intégrées au modèle. 

— Si la méthode descendante utilise un test F, nous éliminons ensuite la 
variable X; dont la valeur p, associée à la statistique partielle de test de 
Fisher, est la plus grande. Nous nous arrêtons lorsque toutes les variables 
sont retirées du modèle ou lorsque la valeur p est plus petite qu’une valeur 
seuil. 

— Si la méthode descendante utilise un critère de choix, nous retirons la 
variable X; dont le retrait du modèle conduit à l’augmentation la plus 
grande du critère de choix. Nous nous arrêtons lorsque toutes les variables 
sont retirées ou lorsque qu'aucune variable ne permet l’augmentation du 
critère de choix. 


Méthode progressive (stepwise selection) 


Même principe que pour la méthode ascendante, sauf que l’on peut éliminer 
des variables déjà introduites. En effet, il peut arriver que des variables in- 
troduites en début ne soient plus significatives après introduction de nouvelles 
variables. 

Remarquons qu’en général la variable « constante », constituée de 1 et as- 
sociée au coefficient « moyenne générale », est en général traitée à part et elle 
est toujours présente dans le modèle. 
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6.6 Exemple : la concentration en ozone 


Nous continuons à analyser le jeu de données de l’ozone. Le logiciel permet 
d'effectuer une recherche exhaustive lorsque le nombre de variables explicatives 
n’est pas trop important. Nous allons donc effectuer cette recherche. Le logiciel 
propose également de retenir via l'argument nbest, un nombre défini par l’uti- 
lisateur de modèles ayant 1, puis 2, puis 3 … variables. Nous fixons ce niveau 
à 1. 


recherche.ex <- regsubsets(03”.,int-T,nbest=1,nvmax=10, 
method="exhaustive",really.big=T,data=donnee) 


Pour pouvoir utiliser les résultats de cette procédure, le graphique est l’outil le 


plus approprié. Le logiciel propose 4 critères de choix : le BIC, le C;,, le R? et 
le R?. Nous allons donc dessiner ces résultats avec les 4 critères. 


Minimisation du BIC 
plot(recherche.ex,scale="bic") 


Nous obtenons le graphique suivant : 


(ntercept) + 
T12 

T15 
Ne12 - 
N12 
S12 

EI2 
W124 

Vx 

O3v - 


Fig. 6.10. Méthode exhaustive, critère du BIC. 


Le modèle retenu alors serait le modèle à 5 variables 


03 — Bi + 62T15 + BaNe12 + BaVx } B503v HE. 


Minimisation du C, 
plot(recherche.ex,scale="Cp") 


Nous obtenons le graphique suivant : 
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W12] 
V 
O3v- 


(Intercept) + 
T12] 

T15 
Ne12 + 

N12 
S12+ 

E12 


Fig. 6.11. Méthode exhaustive, critère du C,. 


Le modèle retenu est identique au modèle retenu par le critère du BIC. 


Maximisation du R? 
plot(recherche.ex,scale="adjr2") 


Nous obtenons le graphique suivant : 


0.71 

: EN 
0.71 
0.71 
0.7 
0.69 
0.69 
0.67 
0.58 


adjr2 


(ntercept) + 
TI2 

TI5 
Ne12 - 
N12 

S12 
E12+ 
W12- 
maxO3v - 


Fig. 6.12. Méthode exhaustive, critère du R2. 


Le modèle retenu admet plus de variables que les modèles retenus avec 
les critères précédents. Nous avons 


03 = B1 + BoT15 + BaNe12 + B1812 + BsW12 + BoVx + Br03v + €. 
Maximisation du R? 


plot(recherche.ex,scale="r2") 


Nous obtenons le graphique suivant : 
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0.75 
0.75 
0.75 
0.74 

0.74 
0.73 
0.71 
0.68 
0.59 


(ntercept) + 
T12- 

T15 
Ne124 
N12 
S124 

EI12 
W12+ 

Vx+ 

O3v- 


Fig. 6.13. Méthode exhaustive, critère du R?. 


Comme prévu, nous conservons avec ce critère toutes les variables du 
modèle. 


6.7 Sélection et shrinkage 


Dans cette partie, afin de simplifier le problème et de bien comprendre les 
idées, nous allons supposer que les variables explicatives sont orthogonales et de 
norme unité. La matrice X est donc une matrice orthogonale et X’X = 1,. Nous 
supposerons également o? connue. L’estimateur des moindres carrés s'écrit alors 


B = (X'X) IX Y = X'(XB+e)=B+X'Ee, 
et la somme des résidus 
n : : 2 nm P : 
SCR — ÿ (us — Biti...— Bain) = Dr = Non 
i=1 i=1 j=1 
Dans ces cas-là, les procédures de choix de variables récrites en terme de SCR 
deviennent 
SCR(E) — SCR(EH) _ 6 
SCR(E,1)/(n — || — 1) a? 
Nous conservons la variable ! dans le modèle si son coefficient estimé associé 
vaut 


Test b > 20 


R? B > © 

Cp à > V20 

AIC  |&|> 2 (1 nl 
nm 


BIC | > on (1- HE) 
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Si le coefficient est plus faible que la valeur donnée, la variable n’est pas 
sélectionnée, cela revient à donner la valeur 0 au coefficient. Si la valeur du 
coefficient est plus grande que la valeur donnée, la variable est conservée et le 
coefficient également. Il y a donc un effet de seuillage. Au-dessus d’une certaine 
valeur, on conserve la valeur, en dessous on met zéro. 

Nous avons vu qu’il peut être intéressant d’avoir des estimateurs biaisés 
(un peu) à condition que leur variance soit plus faible. Lorsque les variables 
sont orthonormales, nous obtenons une forme simplifiée pour l’estimateur des 
MC (qui est toujours de variance minimale parmi les estimateurs linéaires sans 


biais) 


Ef = & 
V(B:) = 0 
EQM(B;) = 0°. 


Au lieu de seuiller des coefficients, analysons l’effet d’un rétrécissement et consi- 
dérons les estimateurs 


_ 1 
RE. 

où À est une constante positive à déterminer. Nous avons les propriétés sui- 
vantes : 


: 1 
> 1 
V(G) n (1 TE 
EQMG) = re +0?) 


En partant de ce constat, James et Stein ont proposé l’estimateur de James- 
Stein défini par Lehmann & Casella (1998, pp. 359 et 368) 


Bisi — Ê _ par) Bi. 


Ils ont démontré que la trace de l'EQM de l’estimateur B Js était plus petite 
que la trace de l’'EQM de l’estimateur des MC B lorsque p est plus grand que 
2. 

Enfin, si l’on prend uniquement la partie positive du premier terme, on 
obtient un estimateur de James-Stein tronqué 


; (@—2)o | ; 
BJSTi — max (a Ë T a à) ; 
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et l’estimateur est encore amélioré en terme d'EQM. Cet estimateur combine 
le rétrécissement et le seuillage. En effet lorsque (p — 2)o?/||6||? est plus grand 
que 1, le coefficient associé vaut alors 0. 

Remarquons que, selon la définition de ces deux estimateurs, ils reviennent 
tous deux à « rétrécir » les coordonnées de B vers 0 d’une même grandeur et 
donc à contraindre la norme de ô. En suivant cette idée, il est intéressant d’en- 
visager de contraindre la norme de l’estimation afin d'obtenir des estimateurs 
possédant un meilleur pouvoir prédictif. Nous avons vu que l’estimateur de 
James-Stein (tronqué ou non) est un de ces estimateurs. Nous allons détailler 
d’autres types de contraintes classiques : l’estimateur des moindres carrés sous 
contrainte de norme, tels que la régression ridge (Hoerl & Kennard, 1970), la 
régression PLS (partial least square), la régression sur composantes principales 
ou le lasso (Tibshirani, 1996) dans le chapitre 8. 

Tout d’abord, si l’on souhaite contraindre la norme du coefficient à estimer, 
il est naturel de supposer que cette norme est inférieure à un nombre 6 fixé. Le 
problème de régression s’écrit alors comme la recherche de ô tel que 


B= argmin [|Y — X6|°. 
BER?, ||812<6 


Cette méthode revient à la régression ridge (Hastie et al., 2001) dont le 
principe sera exposé à la section 8.1 (p. 198). Géométriquement elle revient à 
chercher dans un cercle de contrainte de rayon 6 le coefficient 5 le plus proche 
au sens des moindres carrés. 

Les méthodes de régression PLS et de régression sur composantes princi- 
pales, projetant sur un sous-espace de S(X) reviennent aussi à contraindre la 
norme de Ÿ. Il est aussi possible de montrer que la méthode PLS revient à 
contraindre la norme de 5 vers 0 (De Jong, 1995). Ces deux méthodes seront 
exposées plus en détail au chapitre 8. 

À l’image de la régression ridge, il est possible de contraindre non plus la 
norme euclidienne (au carré) ||B||?, mais la norme de type [!, à savoir ||3, = 
37 IG]. Si l’on utilise cette contrainte, la méthode, appelée Lasso, revient à 


trouver le minimum GB défini par 


B= argmin [|Y - X6|?. 
BER?,|8||; <ô 


Notons enfin que ces méthodes permettent à la fois d'obtenir une prévision 
fiable (moins variable) et de sélectionner des variables. Classiquement elles sont 
indiquées lorsque les variables explicatives sont colinéaires ou presque (voir cha- 
pitre 8). Cependant nous avons vu que le MSE de la prévision est diminué par 
l’estimateur de James-Stein, et ce dans tous les cas, lorsque l'hypothèse de 
normalité est vérifiée. Il semble donc assez cohérent de penser que les estima- 
teurs contraignant la norme du coefficient à estimer 8 donneront de meilleures 
prévisions que l’estimateur des moindres carrés et ce dans de nombreux cas de 
figure. 
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6.8 Exercices 


Exercice 6.1 (Questions de cours) 

1. Un modèle à p variables a été estimé donnant un R? noté R?(p). Une 
nouvelle variable explicative est rajoutée au modèle précédent, après es- 
timation un nouvel R? noté R?(p + 1) est obtenu. 

A. R?(p + 1) est toujours plus grand que R?(p); 

B. R?(p + 1) est parfois plus petit parfois plus grand cela dépend de la 
variable rajoutée ; 

C. R?(p + 1) est toujours plus petit que R?(p). 


2. Le R? permet-il de sélectionner des modèles ? 
À. Jamais; 
B. Toujours ; 
C. Oui si les modèles admettent le même nombre de variables explica- 
tives. 


3. Vous travaillez avec un modèle restreint £ par rapport au vrai modèle (des 
variables sont omises), l’estimateur Be de Be dans ce nouveau modèle est : 
A. Toujours biaisé ; 

B. Parfois biaisé ; 
C. Jamais biaisé. 


Exercice 6.2 (Analyse du biais) 
Démontrer la proposition 6.1 p. 147. 


Exercice 6.3 (f Variance des estimateurs) 
Démontrer la proposition 6.2 p. 148. 


Exercice 6.4 (Utilisation du R?) 

Soit Z{n,4) une matrice de rang q et soit X{,,) une matrice de rang p composée 
des q vecteurs de Z et de p—q autres vecteurs linéairement indépendants. Nous 
avons les deux modèles suivants : 


Y = ZB+E 
Y = XF +n. 


Comparer les R? dans les deux modèles. Discuter de l’utilisation du R? pour le 
choix de variables. 


Exercice 6.5 (Choix de variables) 
Nous considérons le modèle de régression multiple avec p variables explica- 
tives. Nous avons un modèle avec 4 variables explicatives et avons fait toutes 
les régressions possibles. En utilisant la première question, choisissez votre mo- 
dèle. Les différentes méthodes que vous avez présentées donnent-elles le même 
modèle ? 

Voici les résultats numériques avec n — 10 et entre parenthèses la valeur 
absolue de la statistique de test. Prenez pour fractile de la loi de Student (ddl 
< 10) la valeur 2.3. 
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modèle R? AIC BIC 
M1 Ÿ = 124433) + O.12aro)r .996 -2.18 -2.12 
M2 Ÿ =2.114.6 + 0.3305.3%2 .967 -0.20 -0.14 
M3 Ÿ = —38.51ç0.) + 0.52(12.5)Ta .952 0.18 0.24 
M4 Ÿ = —53.65(14.8) + 0.66(18.6)74 977 -0.58 -0.52 
M12 Y = —1.59(2.6) EE nd 0.13(6.9)T1 = 0.04(0.7)x2 .-996 -2.06 -1.97 
M13  Ÿ = 1.40(03) + 0.12ç8.471 — 0.04(0.5)T3 .996 -2.03 -1.94 
M4 Ÿ = -8.37(10) + 0.106.671 + 0.09(0.9)%4 996 -2.09 -2.00 
M23  Ÿ = 13.29 (13) + 0.21(2.6)72 + 0.19(1.5)T8 .975 -0.27 -0.18 
M24 Ÿ — —31.2(3.2) DS 0.14(2.4,%2 M re 0.39(3.5)Ta .988 -0.99 -0.90 
M34  Ÿ = 588.21) — 0.16(0.7%3 + 0.87(3y4 .979 -0.46 -0.37 
M123 Y = 0.95(0.2) + 0.14(5.6)T1 0.04(0.7)T2 = 0.03(0.5)T3 .-996 -1.90 -1.78 
M124 Ÿ . —7.4(0.8) + 0.11(3.5)T1 TT 0.03(0.5)T2 TT 0.07(0.6)Ta .996 -1.93 -1.80 
M134  Ÿ = 12.709) + O.l(r.5p21 — 0.192.573 + 0.31(2.6)7a 998 -2.59 -2.47 
M234 Ÿ —= —34.9(4.2) Tr 0.16(3.3,x2 = 0.3(2)x3 = 0.7(3.8)Ta .993 -1.30 -1.18 
M1234 Ÿ = 13.548) + 0.lg.nti + 0.02(0.3)2 998 -2.40 -2.25 


—0.2(2.2,T3 + 0.34(2.3)T4 


6.9 Notes : extension du C, 


Dans la section consacrée au C,(£), nous avons insisté sur le caractère non 
aléatoire de Px.. Afin que l'égalité E(Px,Y) = Px.E(Y) soit valide, il faut que 
Px. soit fixe et donc que le choir du modèle X£ ne dépende pas des données 
sur lesquelles on évalue le C,. En d’autres termes, pour que le C, ou plus 
exactement 6? C, soit un bon estimateur de l'EQM, il faut que l’estimation des 
paramètres et le choix des modèles ne dépendent pas des données permettant 
le calcul de 6? C,,. Ce critère est donc un estimateur sans biais uniquement si 
l’on a au moins deux jeux de données distincts, l’un d'apprentissage sur lequel 
on estime les coefficients et l’autre de validation sur lequel on calcule les C,,. 

Nous savons qu'avec seulement un jeu de n observations le 6? C, n’est pas 
un estimateur sans biais de l'EQM. Essayons au travers d’un exemple simple 
de comprendre la procédure de sélection par C, et ses problèmes. 

Soit X1,X2,...,X, des variables orthogonales de norme unité. La matrice 
X est donc une matrice orthogonale et X’X = I,. L’estimateur des moindres 
carrés s’écrit alors 


B = (X'X) IX Y = X'(XB+e)=B+X'e. 
Si l'hypothèse de normalité des résidus est vérifiée, alors X’e suit une loi nor- 


male de moyenne nulle et de variance o21,. Nous avons, alors 8 + N(B,021,). 
Pour reformuler le C,, nous devons nous intéresser à la valeur de SCR(£) : 


SORE) = |Y - If = |Px1Y + PxY — PxY|? 
= [Pxiy |? +PxY — PxYI = (n-—p)6* + ||PxY — PxY|? 
= (n—p)6? + lPxa PxY + PxePxY — Px.Y|f. 
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Notons £ l’ensemble des indices des variables non incluses dans le modèle £ 


(le complémentaire par rapport à {1,2,...,p}), nous avons en nous rappelant 
que Px;Y = Xf et que toutes les variables sont orthogonales : 
SOR(E) = (n-p)6?+ [Ps KO + Pa — Pa Y|? = (n— p)62 + |Xebell? 


= (n-p)6? + BEXE XEe 
= (n-pé +). (6.4) 
Jéé 
La définition du C,(£) (équation 6.3) donne 
6° Cp(E) = SCR(£) — (n — 216167. 


En remplaçant dans cette équation la quantité SCR(£), nous avons 


6 CE) = (n-pé? +87 —{(n-—2/6|)6? 


ÎÉ£ 
= D Ë + (2161 -p6° 
Îé 
P A A 
= D 5-3 -p6" +aele?. 
j=1 JEÉ 


Nous avons p6? que nous mettons dans la première somme de p termes et 2|£|6? 
que nous mettons dans la seconde somme de |£| termes. Cela donne 


BCD = DU 62 - DUB - 262). 


j=1 JEÉ 


Choix de variables, |£| fixé 


Si nous souhaitons grâce au critère du 6? C, sélectionner parmi les ensembles 
£ de cardinal |£| fixé, nous allons donc devoir chercher l’ensemble de SCR(£) mi- 
nimum, soit celui dont les normes LA j € &, sont maximales (ou minimales dans 
le complémentaire). La procédure conduit donc à sélectionner les [£| variables 
dont les coefficients estimés sont les plus grands en valeur absolue. 


Choix de variables, |£| non fixé 


Maintenant, nous considérons que le cardinal |£| est variable. 
Si ce cardinal est 1, alors nous choisissons la variable dont le coefficient estimé 
est le plus grand et le C, (1) vaut 


Ch(1) = DE _ 6°) TT (82, a 26°), 


j=1 
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où Ba) est le coefficient associé à la variable admettant la plus grande valeur 
des B. 

Maintenant, comme le |£ est variable, nous souhaitons savoir si des en- 
sembles € de cardinal 2 conduisent à une diminution du C,. Nous savons que 
l’une des deux variables est la même que celle sélectionnée quand [£| = 1. La 
deuxième variable est ajoutée au modèle optimal de cardinal |£| = 1. Si l’ajout 
de cette variable permet une diminution du 6? C, alors le modèle optimum de 
cardinal 2 est préféré à celui de cardinal 1. Le C,,(2) vaut 


C(2) = > (& 6°) (82, 26?) (82 26°). 


j=1 
La différence des C,, vaut 
Ai-2 = C(1) — Ch(2) = Pr) — 267. 


Si A;_2 > 0, c’est-à-dire pe > 26?, alors le modèle de cardinal 2 est préféré à 
celui de cardinal 1. De même pour le passage du cardinal 2 à celui du cardinal 
3; à chaque fois la différence de 6? C,, diminue car par définition B2. diminue 
quand j augmente. Au final, le modèle retenu sera celui dont les carrés des 
coefficients estimés sont tous plus grands que 26?. 


Espérance du C, 

Si maintenant nous nous intéressons à ce que donne cette sélection en 
moyenne, calculons l'espérance de 6? C,. Simplifions les calculs en supposant 
tous les 8; nuls. Nous savons que E(?) = ff + 0° = o° et que 6” est un 
estimateur sans biais de o?. Le premier terme Date — 6?) a une espérance 
nulle. Si nous nous intéressons au second terme ÿ° (0e — 26?), nous savons 
que tous les b; sélectionnés dans £& sont tels que > 26?, donc ce terme est 
toujours positif et donc son espérance aussi. En conclusion, 4? C, est donc en 
moyenne négatif, alors qu’il est censé donner une idée de la qualité d’approxi- 


mation via l'EQM, qui est une quantité positive! Le C, va donc sous-estimer 
en moyenne l’EQM, il sera trop optimiste. 


Espérance de la taille du modèle |£| 


Analysons en moyenne la dimension du modèle sélectionné par C,. La taille 
lé] est le nombre de coefficients f; qui sont tels que 6° > 26?, ce qui s'écrit : 


E(El) = D Ellyg23262)) = D E(L{63/52523) 


=1 j=1 


—  pPr(B?/6? > 2) = pPr(|f;/6| > V2) = 2pPr(8;/6 > V2), 


S. 
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avec bien sûr Pr(.) dénotant la probabilité. Or 5; + W(0, 02), (n — p)é?/o? + 
X?(n — p) et ces deux variables aléatoires sont indépendantes, donc cb; JE © 
t(n — p) et donc E(|é|) = 2p t,5,(n — p) > 0. Si nous supposons pour fixer 
les idées que 6? — o?, nous avons alors une loi normale centrée réduite et 
E(|é|) = 2p 2,5 © 0.16p. Rappelons que tous les coefficients 3; sont supposés 
égaux à 0 et donc que la taille [£| idéale est 0. La taille sélectionnée est donc 
en moyenne toujours trop grande. 


Conclusion 


Le C,, quand il est utilisé de manière classique sur le même jeu de données 
que celui utilisé pour estimer les paramètres, conduit à sélectionner les va- 
riables associées à de grandes valeurs de paramètres. Lorsque l’on considère la 
moyenne sur tous les échantillons sur lesquels on applique la procédure de sélec- 
tion/estimation, les variables sélectionnées seront celles qui auront des valeurs 
élevées pour leur coefficient. Si l’on applique la même procédure d’estimation, 
suivie de la sélection du modèle par Cp, alors en moyenne cela conduit à des 
modèles dont les coefficients sont trop élevés en valeur absolue. Certains cas de 
figure vont être exclus par la procédure de sélection. Nous ne pourrons jamais 
obtenir de modèle avec la variable 1 sélectionnée quand le coefficient estimé 
est inférieur à celui de la variable 2 (fig. 6.14). L’exclusion de ces cas conduit 
à des coefficients biaisés vers de plus grandes valeurs absolues. Ce biais est 
quelquefois appelé biais de sélection (Miller, 2002). 


Echantillon 1 ba 


Ba Bi 


Population Bi Ba 
| 
l 
l 
l 
Echantillon 2 | 
l 


Fig. 6.14. Biais de sélection dans un modèle à une variable sélectionnée. Le 
coefficient encadré est celui de la variable sélectionnée. 


Ces conclusions sont valides dans le cas où les variables sont orthogonales. 
Pour généraliser ces résultats au cas général, l'équation (6.4) devient (n—p)6?+ 
I Px. XB]|?, ce qui conduit, avec la définition de 6? C,,, à l'équation suivante : 


8 = |Px,XBI? + (21€ — p)6?. 


Ici la matrice X n’est pas orthogonale, donc les normes des variables explica- 
tives ne sont pas toutes identiques et égales à 1, en d’autres termes les échelles 
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(ou dispersions) sont différentes. De plus, les variables explicatives sont peut- 
être corrélées. La sélection par le C, va donc favoriser les variables qui mènent 
à un terme IP X BI faible. Ceci dépend donc de la valeur des coefficients 
estimés, de la norme de la variable mais aussi des corrélations qu’une variable 
entretient avec les autres variables. Aïnsi prenons le cas où toutes les variables 
explicatives ont la même norme et deux variables, numérotées par exemple 3 
et 4, sont très fortement corrélées. Si l’on en prend une, par exemple la 3, dans 
l’ensemble £, alors pour la seconde, même si son coefficient Ba est élevé par 
rapport aux autres, la projection dans l’orthogonal de S(X£) de Xaba sera de 
norme peu élevée puisque X3 et X4 sont très corrélées. Aïnsi la variable 4 ne 
sera pas forcément sélectionnée. 


Chapitre 7 


Moindres carrés généralisés 


7.1 Introduction 


Dans les chapitres précédents, nous avons supposé que le modèle de régres- 
sion 


Y = XB+E 


était valide et que la variance de € était V(£) = a? (hypothèse H2). 
Cependant, il existe des cas fréquents où cette hypothèse n’est pas satisfaite. 
Les cas rencontrés dans la pratique peuvent être regroupés en deux catégories : 


1. La variance des erreurs n’est pas constante, la matrice de variance de € 
reste diagonale mais les termes de la diagonale sont différents les uns des 
autres, on parle alors d’hétéroscédasticité par opposition au cas classique 
d’homoscédasticité où la variance des erreurs est identique et égale à a? : 


2. Les erreurs sont corrélées entre elles, la matrice de variance de € n’est 
plus diagonale. 
Notons la matrice de variance-covariance des erreurs X: — o°Q. Cette ma- 
trice Q est symétrique définie positive! et de rang n. Nous allons tout d’abord 
analyser, en supposant Q connue, l’impact de cette modification sur les pro- 
priétés des estimateurs des MC. L’estimateur des MC est toujours défini par 
B=(X'X) !X'Y et reste sans biais 


E(B) = (XX) X'E(Y) = 8, 
mais sa variance à changé et vaut 
V(B) = (X'X) XX V(Y)X(X'X) = 07 (X'X) IX 'QX(X'X) ! 


et dépend donc de {. L’estimateur n’est plus de variance minimale parmi les 
estimateurs linéaires sans biais. 


lUne matrice de variance est toujours définie positive. 
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De même, nous avons toujours un estimateur 6? de o?, mais son biais dépend 
aussi de (. En effet : 


o? 


E(£'Pxe) = 1 _ytr(Pyee’)) : tr(Px De) = 


n—p np np n—p 


tr(Px Q) =? 
L’estimateur 6? ne semble pas adapté puisqu'il est biaisé. 

Au cours de ce chapitre, nous allons construire des estimateurs adaptés 
au problème. Dans un premier temps nous allons nous intéresser au cas le 
plus simple, celui de l’hétéroscédasticité et obtenir un estimateur par moindres 
carrés pondérés. Nous généraliserons ensuite au cas où Q est définie positive, 
donnant ainsi la méthode des moindres carrés généralisés. 


7.2 Moindres carrés pondérés 


Considérons donc le modèle 
Y=XB+e, Efe)=0 et V(e) = 070 = 0° diag(wf,-.. ,w?). 
Une ligne de cette écriture matricielle s’écrit alors 
Yi = Dati +: + Dptip + &. 


Une méthode pour obtenir un estimateur sans biais de variance minimale 
consiste à se ramener à #2 et à utiliser l’estimateur des MC. Il faudrait donc 
avoir une variance des résidus constante. En divisant chaque ligne par w; nous 
obtenons 


Vi Lil Tip Ei 

IT, = Bi pe. Bp J 

W; W wi W 
* = * k de 

io = ira ++ pli + € 


La variance de £* est constante et vaut a?. Nous pouvons donc appliquer les 
moindres carrés ordinaires sur les variables transformées. Nous obtiendrons un 
estimateur linéaire sans biais de variance minimale. 

Ecrivons cette transformation en écriture matricielle. Définissons (1/2 la 
matrice diagonale des racines carrées des éléments de (. Nous avons bien évi- 
demment Q1/2Q1/2 = Q, L’inverse de la matrice Q!{/? est une matrice diagonale 
dont les termes diagonaux sont les inverses des termes diagonaux de Q1/?, nous 
noterons cette matrice Q71/2, c’est-à-dire 


n Wn 
L'écriture matricielle de la transformation proposée ci-dessus est donc 
Q-1/2y = QTV2YS LOVE 
YY = X*B+E*. 
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Afin de simplifier certaines explications, nous nous référerons à cette modé- 
lisation sous le terme « modèle (*) ». La variance de £* vaut 


V(E*) _ #20-1/200-1/2 = o2071/201/201/20-1/2 = o?1h. 


Les hypothèses classiques sont vérifiées, nous pouvons estimer B par la méthode 
des moindres carrés, nous obtenons 


Ba = EC dé it 4 = COTE 


Théorème 7.1 (Gauss-Markov) 
L'estimateur B% est sans biais de variance o?(X'Q71X) 1 et meilleur que tout 
estimateur linéaire sans biais au sens où sa variance est minimale. 


Nous démontrerons ce théorème dans la partie suivante. 


Les valeurs ajustées Ÿ sont obtenues par 


Ÿ = Xbo. 


Les résidus valent donc 


Remarque 

En pratique il n’est pas possible d'utiliser cette méthode sans connaître les 
{w;}. En effet, lors du passage au modèle (*), nous supposons les {w;} connus. 
Si les n w; sont inconnus, nous allons devoir les estimer ainsi que les p para- 
mètres inconnus du modèle. Il est impossible d’estimer n + p paramètres avec 
n observations seulement. Il existe cependant deux cas pratiques classiques où 
cette méthode prend tout son sens. 


Cas pratique 1 : régression sur données agrégées par groupes 


Supposons que les données individuelles suivent le modèle classique de ré- 
gression 


Y=XB+e E(c)=0 V(e) = 0°l. 


Cependant ces données ne sont pas disponibles et nous disposons seulement de 
moyennes de groupe d’observations : moyenne d’un site, moyenne de différents 
groupes ou autre... 

Suite à cette partition en J classes d'effectifs n1,::-,n7 avec ni +...+nr = 
n, nous observons les moyennes par classe : 
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Bien évidemment, nous n’observons pas les résidus, mais nous noterons 


: 1 
Ej = — €; 
J iec, 
Le modèle devient alors 
o g - = à 2 dt 1 1 
Y=XB+E E(t)=0 V(E) = 0° = 0" diag(—,..., —). 
ni NI 


Les résultats précédents nous donnent 
Bo = OX) QT. 


Lorsque les données sont agrégées par groupes, il est toujours possible d’utiliser 
l’estimateur des MC. Cependant, cet estimateur n’est pas de variance minimale 
et l’estimateur de a? obtenu est en général biaisé. Il faut donc utiliser les 
moindres carrés pondérés et leur estimateur ci-dessus. 

Les logiciels ne permettent pas toujours de modifier la matrice de variance- 
covariance des erreurs, l’objectif de ce second cas pratique est de montrer le 
lien entre hétéroscédasticité et régression pondérée. La régression pondérée est 
implémentée dans la plupart des logiciels de statistiques. 


Cas pratique 2 : régression pondérée 


Nous connaisons ici Q = diag{(wi1,w9,...,w,). Nous venons de voir que, si 
nous travaillons dans le modèle (*), nous pouvons appliquer les MC classiques. 
Le problème de minimisation est donc 


2 
n p 
: * * 
S(B) = min ) Yi — ) Bjr; 
i=1 j=1 
2 
nm y P _ 
= min ÿ ARE > Bj—+ 
= VW; - wi 
i=1 j=1 
2 
nm 1 P 
— MM ) 2 [Vi — ) Bt; 
i=1 j=1 


n p 
= mn my Br 
il j=1 


Les p; sont appelés poids et dans les logiciels ces poids sont en général nommés 
weight. Il suffit donc de remplacer les poids par les 1/w? et d’appliquer le 
programme de minimisation pour obtenir l’estimateur 


Ba = (X'Q71X) 1X'Q y, 
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où 


2 1 
Wn Pn 


Nous reviendrons en fin de chapitre sur la régression pondérée. 


7.3 Estimateur des moindres carrés généralisés 
Nous supposons dans cette partie que le modèle est 
Y=XB+e (7.1) 


et que les hypothèses suivantes sont vérifiées : 

Hi : rang(X) = p, 

H}:E(e) =0, V(E) = a? Q, avec rang(Q) = n. 

L'hypothèse classique H2 des MC a été modifiée en H;. Afin de démontrer 
aisément pour les estimateurs des moindres carrés généralisés (MCG) toutes 
les propriétés obtenues pour les estimateurs des MC, à savoir la formule de 
l’estimateur, son espérance, sa variance, nous allons poser un changement de 
variables. 

La matrice Q est symétrique définie positive, il existe donc une matrice P 
inversible de rang n telle que ( = PP’. Notons que cette matrice P n’est pas 
unique car il suffit, par exemple, de prendre une matrice orthogonale Q et l’on a 
une nouvelle matrice Z = PQ qui vérifie Q = Z7’ car PP! = PQQ'P' = Z7. 
Cependant le choix de P ne va pas intervenir dans les résultats qui suivent. 
Posons Y* = P-1Y et multiplions à gauche par P1 l'équation (7.1) : 


PY = PIX6+P !e 
yY* == NE 
où X* = PIX ete* — P-le, Dans ce nouveau modèle appelé modèle (*), l’hy- 


pothèse concernant le rang de X* est conservée, rang(X*) — p. Les hypothèses 
d'espérance et de variance du bruit €* deviennent 


E(£*) = 0 
Ve) =: MP) = a PTIOP = GI. 


Le modèle (*) est donc un modèle linéaire qui satisfait les hypothèses des MC. 
Pour obtenir toutes les propriétés souhaitées sur le modèle des MCG, il suffira 
donc d'utiliser les propriétés du modèle (*) et de remplacer X* par P-1X et 
Y* par PTLY. 
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7.3.1 Estimateur des MCG et optimalité 


Ainsi l’estimateur des MC du modèle (*) vaut 
À = (xx) Lx ye 
donnant l’estimateur des MCG 
Bmce = (X*X*) 1X*Y* = (X'Q IX) 1x0 y. 


Nous avons donc la définition suivante. 


Définition 7.1 
L'’estimateur des MC généralisés (ou estimateur d’Aitken) est 


Bmoe = (X'A 1x) 1x0 y. 


Remarques 
— Nous pouvons réinterpréter l’estimateur des MCG avec la notion de mé- 
trique particulière de R”. En effet, il existe une multitude de produits 
scalaires dans R”, chacun issu d’une matrice symétrique définie positive 
M, grâce à 


(u,v}m = w Mo. 


Avec cette remarque, l’estimateur des MCG peut être défini comme le 
vecteur de R? qui minimise la norme |Y — Xallo-1, définie au sens de 
la métrique (71. Donc ce vecteur Bucc est tel que PxY — Xbee: où 
Px = X(X'Q-1X)-1X/Q"1 est le projecteur Ql-orthogonal sur S(X). 
Il est bien sûr possible de retrouver ce résultat par le calcul en considérant 
l’orthogonalité entre Y — XSmca et un élément de S(X). Pour tout 
vecteur à € R?, nous avons 


(Xa,Y — XÜmoc)a-1 
d'X'Q (Y - XBmca) = 0, 


d’où le résultat ; 
— Il est possible d'utiliser comme matrice P la matrice Q!/2 définie par 
UAl/2V' où UAV/ est la décomposition en valeurs singulières de (1. 


Les propriétés concernant l’espérance, la variance de l’estimateur des MCG, 
i.e. le théorème de Gauss-Markov, peuvent être déduites du modèle (*) et 
conduisent au théorème suivant. 


Théorème 7.2 (Gauss-Markov) 
L’estimateur Bijca est sans biais de variance o?(X'Q7 TX)" et meilleur que 
tout estimateur linéaire sans biais, au sens où sa variance est minimale. 
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Preuve 
L’estimateur Bmca est bien linéaire. Calculons son biais et sa variance 


E((X'Q 1x) Ex'0 y) = (X'Q IX) IX QIX 6 = B 
V(fmce) = (X'O IX) IX V(Y)X(X'Q IX) 1 = (X'Q IX) 


E 
& 
« 
S 

| 


Montrons maintenant que cet estimateur est de variance minimale parmi les 
estimateurs linéaires sans biais. Considérons un autre estimateur linéaire 5 = 
CY sans biais de B. Posons 


B=CPP !Y =CPY*. 


B est linéaire en Y* et sans biais dans le modèle (*). Or Bmoa est l’estimateur 
des MC dans le modèle (x), il est donc de variance minimale. La variance de 
Bmca est donc plus faible que la variance de 6. 


Remarque k 
Sous l’hypothèse H}, l’estimateur des MC, Buc = (X'X) !X'Y, qui est tou- 
jours linéaire en y et sans biais, n’est plus de variance minimale. 


7.3.2 Résidus et estimateur de 0? 


Les résidus sont définis par ê = Y — XGmca. Remarquons qu’à l’image du 
vrai bruit où nous avons £* — P-le, nous avons pour l'estimation &* — P-l&, 


Un estimateur a? est donné par 


#2 L 1 XBmcclà- ï 
OMC = ee - 


Proposition 7.1 
L'’estimateur 6 cc est un estimateur sans biais de 0°. 


Preuve 


(Y — Xômca,Y — XÜmca)a-1 

(Y — Xômca) D (Y - Xmca) 

(PPTUY - XBmca)) D (PP UY - XÜmca)) 
(Y* - X*fmoa) PR P(Y* - X*Bmca) 


/ 
k° 2% 


=  É* Ë*. 


(n — P)éca 


Dans le modèle (*), 6%,;cc est un estimateur sans biais de a?, d’où le résultat. 


186 


Régression - Théorie et applications 


7.3.3 Hypothèse gaussienne 


Nous supposons dorénavant que les résidus suivent une loi normale de 
moyenne nulle et de variance o?Q. Nous avons alors les propriétés classiques 
suivantes (dont la démonstration consiste à se ramener au modèle (*) et à faire 
comme pour les MC). 


Proposition 7.2 

i) Bmca est un vecteur gaussien de moyenne B et de variance a LAN Xe 
ü) Éfoa vérifie (n — pécc/0? © Ne 

it) Bmcc et 6foa sont indépendants. 


Nous pouvons aussi tester une hypothèse linéaire quelconque. 


Théorème 7.3 

Soit un modèle de régression à p variables Y = XB +E satisfaisant H1 et Hz. 
Nous souhaitons tester dans le cadre de ce modèle la validité d’une hypothèse 
linéaire quelconque Ho RG = r, avec le rang de R égal à q, contre H1 RGB Zr. 
Soit So le sous-espace de SX de dimension (p — q) engendré par la contrainte 
RGB = 7r (ou Ho) et Sx le sous-espace de dimension p associé à Hi. 

Pour tester ces deux hypothèses nous utilisons la statistique de test F : 


_ Ir da Rêuccl/acx0-1x)-1 7-1 n—p 
IY — Xémoclé-: q 


1 


qui sous Ho suit la loi Fyn-p. L'hypothèse Ho sera repoussée en faveur de H: 
si l’observation de la statistique F est supérieure à fon-p(1 — @), la valeur a 
étant la probabilité de rejeter à tort Ho ou erreur de première espèce. 


Les applications sont identiques à celles rencontrées en régression ordinaire 
et l’on peut citer par exemple les tests de Student de nullité d’un coefficient ou 
les tests de Fisher de nullité simultanée de q coefficients. 


7.3.4 Matrice ( inconnue 


Dans les problèmes rencontrés la matrice Q est souvent inconnue. Il faut 
donc l’estimer puis remplacer dans les calculs Q@ par son estimateur Q. Cepen- 
dant, si nous n’avons aucune information sur Q, il est impossible d’estimer les 
termes de Q car il faut estimer (n? — n)/2 termes non diagonaux et n termes 
diagonaux. Il est cependant possible d’estimer Q dans certains cas particuliers : 

— Q diagonale de forme particulière (voir 7.2, p. 181): 

— (Q admet une expression particulière paramétrable avec seulement quelques 

paramètres (o?,0) à estimer. 
En règle générale, pour estimer 4, on maximise la vraisemblance £(f, a?, 0). 
Cependant nous allons détailler un premier exemple classique où l’estimation 
de 0 est conduite par une procédure beaucoup plus simple. 
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Corrélation temporelle 
Considérons le modèle 
Y =XB+E 


où l'erreur est supposée suivre un processus autorégressif €4 = p£s_1 + ms avec 
0 < p < 1 et où Cov(m,n;) = o?6;;. La matrice de variance ( des erreurs € 
s'écrit alors 


D 
à 


k, ja 
lp 


TD 
à 


1 


Cette matrice est donc fonction de deux paramètres inconnus, o? et p. Le calcul 
de son inverse donne 


1 —p 0 0 
14+p? —p 0 0 
Qt = 
- 0 
1+p?  —p 


Nous venons de calculer 1! dans ce cas précis. Afin de calculer l’estimateur 
d’Aitken de B, il faut estimer (1 et donc estimer p. Pour pouvoir estimer p, 
il faudrait disposer des €4 et ce n’est évidemment pas le cas. 

Dans la pratique, nous calculons Bye = (X'X)-!X'Y, et calculons les 
résidus ê = Y — XBmc. Nous supposons ensuite que Ê4 = péy-1 + 7%, nous 
pouvons donc estimer p par les MC, cela nous donne 


nm A A 
2 Des EtEt-1 
PM En 2 
ds 


À partir de cet estimateur, nous estimons Q par Q puis appliquons l’estimateur 
d’Aitken : 


Bmce = (X'Q 1x) IX Q y. 
Remarque 
Cet estimateur a été calculé en deux étapes (two stages), estimation des résidus 
par MC puis, à partir des résidus estimés, calcul de Byca. Cet estimateur est 
appelé Êrs pour two stages. Un autre estimateur peut être trouvé en itérant ce 
processus jusqu’à convergence, l’estimateur est alors qualifié simplement d’itéré 
(iterated). 
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Corrélation spatiale 


Revenons à l’exemple tiré du livre de Upton & Fingleton (1985) : explication 
du nombre de plantes endémiques observées par trois variables : la surface 
de l’unité de mesure, l'altitude et la latitude. Nous avons vu au chapitre sur 
les résidus qu’une structuration spatiale semblait présente. Nous allons donc 
introduire dans les résidus £ une dépendance entre sites. Nous considérons donc 
le modèle 


Y=XB+E 
où 
e = pMe+n, nN(0,0°1,), (7.2) 


où M est une matrice connue de dépendance entre sites avec M;; = 0 et définie 
par la distance en miles entre sites grâce à 


D:: 
D Di; 
où les termes de la matrice D sont définis par 
re api d(i, j) < 187.5 miles, 
à 0 si d(i,j) > 187.5 ou si à ou j est une île 


où d{i, j) est la distance en miles entre le site + et le site j. 
Lorsque l’on récrit cette équation pour un site à, nous avons 


102 
Ei = P ÿ M;je; + Ti, 
JAi,j=1 
l'erreur du modèle est la somme d’une erreur classique 7; et des erreurs aux 
autres sites. Rappelons que l’erreur n’est pas uniquement l’erreur de mesure 
en soit, mais contient tout ce qui n’est pas modélisé dans la moyenne. Nous 
avons donc une autorégression des résidus de manière simultanée. Ce modèle 


est souvent noté SAR pour simultaned autoregressive. Nous pouvons tirer de 


(7.2) que 


Un —pM)}e = n 
e = (4 -pM) "n= À "n. 
Puisque par hypothèse, la variable 7 suit une loi normale W(0, o?1,), la variable 


. , è cl 
e suit une loi multinormale d’espérance nulle et de variance ( — o2A-14'7. 
La vraisemblance s'écrit alors 


LM Bonn) = (En Ha els - x x}, 
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et la log-vraisemblance s’écrit à une constante près 


SO XB)A(Y - X9) 


1 1 
= —nlogo+:lo [AP — St — XB)'A'A(Y — XB). 


1 
£ 5 log |Q| 


En dérivant la log-vraisemblance et en annulant les dérivées au point ( B,6?, n) 
nous pouvons exprimer {3 en fonction de (6?, à) 


B = EXO IX) EXO IP 
(X'A'AX) Lx A AY 


Comme À = 1, — ÊM, re est une fonction de ÿ uniquement. Si nous connaissons 
f nous connaissons B , 

Ensuite nous pouvons faire de même pour le paramètre o et son estimation 
est égale à 

ë? — + = XONA AY = Xp): 

Nous en déduisons qu’une fois estimé p par ÿ, nous pouvons déterminer ô 
puis 6. Nous pouvons donc récrire la vraisemblance comme fonction uniquement 
de p en remplaçant (5,0) par (8,6) puisque nécessairement, à l’optimum, ils 
seront de cette forme. Nous avons donc la log-vraisemblance, dite concentrée, 
qui s'écrit comme 


Re al 2 Lhy_ ya at - x 
h(p) = —-5 1086? + log [AP - (y - XÉV'A'A(Y — X6) 
eu 
= 5 l8 6 +, lolAl 262 
= -nlogY'(I-X(X'À'Âx) :x'À'À)À'À(I-X(x'ÀA'Âx) :x'À'À)Y 


1 
+ log |A|? + cte. 


Cette fonction peut être optimisée par un algorithme de minimisation sous 
GNU-R en utilisant les commandes suivantes : 


n <- nrow(don) 

X <- cbind(rep(i,n),data.matrix(don!,-1])) 

y <- data.matrix(don!,1]) 

concentree <- function(rho,MM,nn,yy,XX) { 
AA <- diag(nn)-rho*xMM 
PP <- AA#+x/(diag(nn)-XX#4*% 

solve(crossprod(AA%*/4XX) ) 4*x4t (XX) 4*/crossprod(AA))#*x4yy 

res <- 0.5*xnn*log(crossprod(PP))-0.5*x(1og(det(crossprod(AA)))) 
return(res) 

} 


resconc <- optimize(concentree,c(-1,1),MM=M,nn=n,yy=y,XX=X) 
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Ensuite les paramètres estimés sont obtenus grâce aux commandes sui- 
vantes : 


rhoconc <- resconc$minimum 
A <- diag(n)-rhoconcxM 
betaconc <- solve(crossprod(A%*x/#X) )#*/4t(X) #*x/crossprod(A) 
4*/,(as.matrix(don{,"nbe.plante"])) 
sigmaconc <- sqrt(as.vector(crossprod(A#*} 
(as.matrix(don[,"nbe.plante"])-X/*x/{betaconc)))/n) 


Nous obtenons alors le tableau suivant : 


Tableau 7.1. Estimation selon un modèle linéaire avec résidus SAR. 


© P coef cst surface altitude max. latitude 
Valeur 135 0.754  -856.6 0.148 0.102 26.9 
Ecart-type 19.1 0.133 382 0.0378 0.0246 11.5 


Si nous souhaitons des intervalles de confiance, nous pouvons utiliser la 
théorie du maximum de vraisemblance (e.g. Scheffé, 1959, p. 423) et approximer 
un intervalle de confiance de niveau (1 — &) par 


ICa(85) = [ô;-u1-a/265,:0; + W1-a/265] 


où 0 — (6,,0")", u_Ay2 représente le quantile de niveau (1 — a/2) de la loi 
si el 
normale N(0,1) et 6 est égal à [(6)| Lan HO] est l'élément (7,5) 
j 53 5 
de linverse de la matrice d’information de Fisher, c’est-à-dire l'inverse de 
—E(d?£/d6?) évalué au point 6. 
En notant {;} les valeurs propres de À, et en notant que |A] = [[,(1-pX), 
nous avons après quelques calculs qui sont détaillés dans Upton & Fingleton 
(1985) 


—1 


(6) 2n 20tr(MA 1) 0 
ar A 20tr(MA 1!) otr(MA MA 1)+5);, Fr 0 
0 0 (X'A'AX) 1! 


Ainsi, grâce à la fonction suivante, 


ecarttype <- function(rhoo,sigmaa,XX,MM,vprr) { 
AA <- diag(nrow(MM))-rhoo*xMM 
V=sigmaa”2*xsolve(rbind(cbind(matrix(c(2*xnrow(MM) ,2*sigmaax* 
sum(diag(MM/4x/solve(AA))) ,2*sigmaaxsum(diag(MM4*/solve(AA), 
signaa”"2*sum(diag(t(MM/*x/solve (AA) )/*x/MM/*x/solve(AA))) 
+sigmaa”2*sum(vprr"2/(1-rhoo*xvprr)"2)),2,2) ,matrix(0,2,4)), 
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chind(matrix(0,4,2) ,crossprod(AA#*#XX)))) 
return(sqrt(diag(V))) 
} 


nous avons les écarts-types des paramètres figurant au tableau 7.1. 


7.4 Extension des moindres carrés pondérés : la 
régression locale 
Dans cette section, nous allons revenir sur la régression pondérée et ses 


possibles extensions. Nous allons traiter cette extension via l’exemple de l’ozone 
et de la température. 


03 
Q 
Q 
o 
o 
o 
o 


60 
o 

0 
o 
0 


Fig. 7.1. 50 données journalières de T12 et 03. 


Afin de faciliter la suite de cette section, nous classons les données de tempé- 
rature et de concentration en ozone par ordre croissant de la température. Cela 
permet alors de dire que le premier couple de mesure correspond au premier 
point (7.9,79) et ainsi de suite jusqu’au 50°. Ce classement s’obtient facilement 
sous GNU-R 


ind=order (T12) 
Ti20=T12[ind] 
030=03 [ind] 


Nous allons effectuer une régression constante pondérée, c’est-à-dire que 
nous voulons estimer 51 à partir de 


Bi = argmin D piQui — 1). 
i=1 


La solution est (cf. exercice en fin de chapitre) 


À D piyi 
Bi = D 
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Si tous les poids sont égaux, nous retrouvons bien pour B la valeur de la 
moyenne des Ÿ;. 

Nous pensons que l’ozone est fonction de la température, en terme de mo- 
dèle, nous écrivons 


Yi= f(T12) +é 2=1,:.:,n, 
où f peut être une fonction non linéaire. 

La première approximation que nous pouvons faire est d’approcher cette 
fonction inconnue par une fonction en escalier. Nous avons 50 points, imaginons 
que nous fassions 5 régressions constantes avec les 10 premiers points (les poids 
correspondants vaudront 1 pour les 10 premières observations puis O0 pour les 
suivantes), puis les 10 suivantes. Les commandes pour effectuer ces régressions 
sont 


regi=lm030"1,weight=c(rep(1,10) ,rep(0,40))) 
reg2=lm(030"1,weight=c(rep(0,10) ,rep(1,10) ,rep(0,30))) 
reg3=1lm(030"1,weight-=c(rep(0,20) ,rep(1,10) ,rep(0,20))) 
reg4=1m(030"1,weight=c(rep(0,30) ,rep(1,10),rep(0,10))) 
reg5=1m(030"1,weight=c(rep(0,40) ,rep(1,10))) 


et nous obtenons alors un estimateur en escalier de la fonction f. 


maxO30 


20 25 30 
T120 


Fig. 7.2. Estimation par morceaux. 


Nous avons effectué 5 régressions pondérées en choisissant les poids en fonc- 
tion de la valeur x que prend la variable T12. Ces poids dans un premier temps 
prennent la valeur 0 ou 1. 

Prenons le 10° point, il va servir à la première régression mais pas à la 
seconde. Une façon naturelle de remédier à cette constatation consiste alors 
à effectuer plus de régressions pondérées et à trouver une méthode « intelli- 
gente » pour affecter des poids. 

En chaque point x appartenant à l’étendue de la variable explicative, nous 
effectuons une régression pondérée dont les poids vont dépendre de la valeur 
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x. Par exemple, les points dont les x; sont proches de x vont être affectés d’un 
poids 1, les autres 0. Nous avons alors des poids qui dépendent de x que nous 
notons p;(x). Nous effectuons alors une régression pondérée et obtenons ainsi 
Bi(x). Nous effectuons cela pour un grand nombre de valeurs x, puis traçons 
la courbe passant par les points (/1(x)). 

En général, les poids sont calculés grâce à la fonction 


pto=k (EE), 


où K appelé noyau est en général une densité symétrique et h est un paramètre 
fixé qui permet à l'utilisateur de contrôler le caractère local des poids. Ce 
paramètre est appelé la fenêtre. 

Prenons le cas d’un noyau uniforme K(x) = 1{_1,21/2}(x). Représentons 
les données que nous utilisons au point x = 16 avec une fenêtre h valant 2. Nous 
allons prendre tous les points situés dans l'intervalle [14; 18]. En effectuant une 
régression pondérée avec des poids valant 1 pour les points dont la valeur de la 
température est comprise dans l’intervalle, nous obtenons B1(16) — 71.96. 


maxO30 
100 120 140 
L L 


80 
LA 


60 
L 


40 


10 T5 20 25 30 
T120 


Fig. 7.3. Points pris en compte pour calculer la fonction de régression au point 
16. 


Le choix de ce noyau n’est pas très adapté. En effet, des points 712; situés 
dans la bande mais éloignés de x auront le même poids qu’un point de la bande 
proche de x. Le noyau utilisé en général est la densité gaussienne 


d u? 
—— exp | —— |. 
V2T 2 
Pour une fenêtre de taille donnée, nous effectuons alors des régressions lo- 
cales en différents x, nous obtenons des f(x) que nous relions ensuite pour 


obtenir un tracé de l’estimateur de la fonction f. Nous obtenons alors l’estima- 
teur de Nadaraya-Watson 


K{u) = 


DiYK (5) 


Mr pee) 
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Pour l’exemple de l’ozone, voici le tracé des estimateurs de f avec le noyau 
gaussien et trois fenêtres différentes 


C| eo 
h1=1 ° 
—. h2=2 Site. PTT 
a | —: h3=5 e CRC 
— De 
DE 
e Fo : 
am © - HER 
OT e.— 
E 
É os | 
00 
e + 
Le] 
1 : 
10 15 20 25 30 
T12 


Fig. 7.4. Estimation non paramétrique de la fonction de régression. 


7.5 Exercices 


Exercice 7.1 (Questions de cours) 
1. Nous utilisons les moindres carrés généralisés car l’hypothèse suivante 


n'est pas satisfaite (cocher la bonne réponse) : 
À. Hi le rang du plan d’expérience ; 

B. #2 l'espérance et la variance des résidus ; 
C. H3 la normalité des résidus. 


La matrice de variance de € est Q. L’estimateur d’Aiïtken a une variance 
(cocher la bonne réponse) que la variance de l’estimateur des MC : 

A. plus petite ; 

B. plus grande ; 

C. les variances ne peuvent pas être comparées. 


En estimation non paramétrique, si la fenêtre utilisée est petite, l’estima- 

teur obtenu, en général, 

À. varie beaucoup: 

B. ne varie pas; 

C. il n’y a pas de rapport entre la variation de l’estimateur et la taille de 
la fenêtre. 


Exercice 7.2 (Régression pondérée) 
Nous voulons effectuer une régression pondérée, c’est-à-dire que nous voulons 
minimiser 


2 


n p 
Bpond = argmin Yi — ÿ Bi; | Pi, 
B 


i=1 j=1 


où p; est un réel positif (le poids). 
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1. Afin de trouver Bpona, trouver un changement de variable dans lequel le 
critère à minimiser s'écrit comme les moindres carrés classiques avec les 
nouvelles variables X* et Y*. 


2. En appliquant le changement de variable précédent, trouver l’estimateur 


Bpond- 
3. Montrer que lorsque la seule variable explicative est la constante, la so- 
lution est 
ê _ 2 Digi 
DZ 
4. Retrouver un estimateur connu si les p; sont constants pour à = 1,--- ,n? 


Exercice 7.3 (Estimateur de Nadaraya- Watson) 
Nous souhaitons effectuer une régression constante locale, cela revient à mini- 
miser 


min > (ui — H)*pi(x), 
il 


où 


Montrer que l’estimateur de H1(x) est 


Di Wipi(æ) 
Di Pi(æ) 
Exercice 7.4 (jf Polynômes locaux) 


Il est souvent préférable d'effectuer une régression linéaire locale à la place 
d’une régression constante. Cela revient alors à minimiser 


Bi(x) = 


min D (ui — Bi — B(Xi— x))pi(æ), 
i=1 


où 


Montrer que l’estimateur de B1(x) est 


ee D x) 
Bi( ) = po q(x) ) 
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qi(x) = AA EE 
Si — DK (EE) (x 
S — DE) ap 


Indication : écrire (X/Q71X) en fonction de S1 et S2. 


Chapitre 8 
Régression biaisée 


Nous avons vu au chapitre 2 que la régression linéaire reposait sur deux 
hypothèses H1 et H2, à savoir : 

— Hi :rang(X) = p, 

- H2:E(e)=0, V(E)=0?1,. 

La non-vérification de l'hypothèse H{2 avait conduit aux moindres carrés 
généralisés (voir chapitre 7). Nous allons maintenant traiter le cas où H1 n’est 
plus vérifiée. Cela revient à dire que X’X a son déterminant de nul et donc 
qu’elle n’est plus inversible. Nous étendrons l'étude au cas où le déterminant 
de X’X est si proche de O0 que nous pourrons le considérer comme nul. 


Pratiquement, le cas où rang(X) < p se présente dans les deux situations 
suivantes : 


— n < p, le nombre de variables est supérieur au nombre d’observations ; 
- n > p mais {X1,...,X,} est une famille liée de R”. Ceci correspond à 
une (ou plusieurs) variable(s) linéairement(s) redondante(s), c’est-à-dire 


2j : X; = J'ai: 
ifj 


De manière pratique, on énonce souvent ce dernier cas où un cas assez 
voisin X; & ) 4; œiX; avec la phrase suivante, « les variables (expli- 
catives) sont très corrélées (empiriquement) », même s’il ne s’agit pas à 
proprement parler de corrélation, puisque la corrélation empirique simple 
ne concerne que deux variables (voir exercice 8.2). 

Remarquons que si les colonnes de X sont linéairement dépendantes (ou si 
rang(X) < p), alors la matrice (X’X) n’est pas inversible et la relation donnant 
8 n’a plus de sens. Nous pouvons toujours projeter Y sur S(X) mais Ÿ n’admet 
plus une décomposition unique sur les colonnes de X (fig. 8.1). 
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X2 


æ 


Fig. 8.1. Décomposition de Ÿ dans S(X), nous avons Ÿ =I1xX1+1Xx X3 = 
238 X5E 1/2Xs: 


Nous sommes en présence, pour le même Ÿ, d’une infinité de b, les coeffi- 
cients ne sont pas uniques et le modèle n’est pas identifiable. De plus, puisque 
V(B) = o?(X/X)7!, la précision des estimateurs va diminuer dès que X/X va 
se rapprocher d’une matrice non inversible. Pour que les estimations aient un 
sens et soient précises, il sera donc nécessaire d'utiliser des méthodes adaptées 
à la déficience de rang. 


8.1 Régression ridge 


La matrice X’X est une matrice semi-définie positive, ses valeurs propres 
sont donc positives ou nulles. Lorsque le déterminant de X’X est nul (ou proche 
de 0), nous avons une ou des valeurs propres de X’X nulles (ou proches de (0). 
En notant {\; Le les valeurs propres de X’X et en les ordonnant À > À > 
--. À, > 0, nous avons qu’à partir d’un certain rang r, la valeur propre À; = 0 
(ou À; & 0). Si par contre les valeurs propres (chacune associée à un certain 
vecteur propre) étaient plus grandes, alors le déterminant, qui est le produit 
des valeurs propres, serait différent de 0. 

Un résultat d’algèbre linéaire indique que X’X et (X’X + Kl,) ont les 
mêmes vecteurs propres mais des valeurs propres différentes, à savoir { À, Jin et 
{A5+K}5_, respectivement (cf. exercice 8.4). Ainsi, si l’on revient à la définition 
de B, remplacer (X/X)-! par (X/X + KI) =! permettrait d'augmenter toutes 
les valeurs propres et donc celles qui sont (quasi) nulles et d'obtenir un vecteur 
de coefficient B unique et stable. 

Cette méthode, appelée régression ridge, a été proposée par Hoerl & Ken- 
nard (1970) et elle consiste à utiliser comme estimateur : 


Bridge (K) — (X'X + ARE 


où « est une constante positive à déterminer. Cela constitue le point le plus 
délicat de cette méthode. Si & — oo, alors Griage(K) — 0; mais pour toute 
valeur finie de k, Biiase(K) est non nul. Si par contre & — 0, alors fiage — D. 
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Remarquons que si X est orthogonale, alors par définition X’X = J et donc 
la définition de la régression ridge revient à diviser B = X'Y l’estimateur des 
MC par (1 + «) et donc à « diminuer »les coefficients d’une même valeur, à 
l’image de l’estimateur de James-Stein (6.7 p. 172). 


8.1.1 Equivalence avec une contrainte sur la norme des 
coefficients 


Cette méthode équivaut à résoudre le problème de minimisation suivant : 


B= argmin [|Y - XG|°. (8.1) 
BER?,||8112<6 

Pour résoudre ce problème sous contrainte, nous sommes en présence de deux 
cas (Miller, 2000). Le premier est simplement que le minimum sans contrainte 
(ie. 5 l’estimateur des MC) réalise la contrainte done que ||B||? < 6. Dans ce 
cas la solution sous contrainte est la même que celle sans contrainte : b _ ô. 
Ce cas n’a pas d’intérêt puisque l’on se retrouve dans le cadre des MC. Si par 
contre 6 est «petit» et tel que ||? > 6, il nous faut calculer l’estimateur 
obtenu. Pour cela, nous introduisons le lagrangien du problème 


L(B,7) = |Y-X86|" - 78? — 6). 


Une condition nécessaire d’optimum est donnée par l’annulation de ses dérivées 
partielles au point optimum (Ghiage, 7), ce qui donne 


—2X"(Y EE Nage) &E 27 ridge = 0 (8.2) 
Il Bridge ||? ra Ô = (. 


À partir de la première équation, nous retrouvons l’estimateur ridge Baie = 
(X'X + FI) 1X/Y qui est forcément un optimum du problème. Afin de cal- 


culer la valeur de 7, pré-multiplions (8.2) à gauche par flans cela donne 
T = Fr.0 — Bliage XX Briage)/0 et remplaçons Ô par I&riage||?. On peut 


également vérifier que ce couple est bien un minimum de la fonction en remar- 
quant que le hessien! est bien une matrice symétrique de la forme 4’A, donc 
semi-définie positive. 

Géométriquement, la régression ridge revient à chercher dans une boule de 
R? de rayon 6, le coefficient Din le plus proche au sens des moindres carrés. 
D'un point de vue géométrique, en nous plaçant dans l’espace des observations 
R”, l’image de la sphère de contrainte par X est un ellipsoïde de contrainte. 
Puisque l’ellipsoïde est inclus dans S(X), dans le cas où 6 est « petit », le 
coefficient optimum Bridge est tel que X Dee est la projection de X ô sur cet 
ellipsoïde de contrainte (voir fig. 8.2). Dans le cas contraire où || ||? < 6, B est 
dans ou sur l’ellipsoïde et donc sa projection reste égale à ô. 


1Matrice de dérivée seconde de la fonction. 
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+ - - 


Fig. 8.2. Contrainte sur les coefficients et régression ridge : Biiase représente 


l’estimateur ridge et B représente l’estimateur des MC. 


8.1.2 Propriétés statistiques de l’estimateur ridge Das 


Revenons aux définitions des estimateurs ridge et MC : 


baise. = COX LRI) EXT 


B = (X'X) !X"Y. 


En pré-multipliant la seconde égalité à gauche par X'X, nous avons X'Y — 
X'Xf, cela donne alors 


Briage = (X'X+Kk1) IX 'XB. 


Cette écriture permet de calculer facilement les propriétés de biais et de variance 
de l’estimateur ridge. Le calcul de l’espérance de l’estimateur ridge donne 


E(bidge) ns (XX ha KI) "(X/X)E(8) 
= (X'X+kI) 1 (X'X)8 
= (X'X+kI) (XX + KI -K1D)B 
= p-R(X'X +kI) 6. 


Le biais de l’estimateur ridge vaut donc 
B(Briage) = —K(X'X +kI) 18. (8.3) 


En général cette quantité est non nulle, l’estimateur ridge est biaisé. En moyenne 
sur toutes les expériences possibles, l’estimateur ridge ne sera pas égal au coef- 
ficient 5. Cependant, même si nous perdons de la précision en moyenne, nous 
pouvons espérer que les variations autour du vrai paramètre soient plus faibles 
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dans le cas de l’estimateur ridge que dans le cas de l’estimateur des MC. Cal- 
culons la variance de l’estimateur ridge 


V (Bridge) = V((X'X + KI) !X'Y) 
= (XX +KkD) IX! V(Y)X(X'X + «r) 7! 
(XX +KkI) TX'X(X'X + kI) À. (8.4) 


L’estimateur ridge est biaisé, ce qui constitue un handicap par rapport à l’es- 
timateur des MC. Par contre sa variance fait intervenir (XX + x1)-! et non 
pas (X/X)-{. Or l'introduction de «1 permet d'augmenter les valeurs propres 
de (X’X + KI), donc la variance sera plus faible. 

Après avoir calculé le biais et la variance de cet estimateur, nous allons 
calculer son EQM (cf. p. 148) et le comparer à celui de l’estimateur des MC : 


EQM(5) = o*(X'X) 
EQM(bridge) =  E(bridge)E (Bridge) + V(Brige) 
k°(X'X + KI) TBB'(X'X + KI)! 
+ (X'X + KI) X'X(X'X + KI)" | 
= (XX +kI) "[k° 86! +0 (X'X)] (XX + KI). 


Il 


Il n’est pas aisé de comparer deux matrices, aussi nous prendrons une mesure 
de la qualité globale via la trace. Lorsque nous considérons la trace de la matrice 
de l’'EQM nous avons 


HrEQM(É] = 0? tr((X/X)71) = 0? >. | 


où OI sont les valeurs propres de X’X. Comme certaines de ces valeurs 
propres sont nulles ou presque nulles, la trace de l’'EQM est donc infinie ou 
très grande. Nous pouvons montrer que la trace de cette matrice de l’'EQM de 
l’estimateur ridge (voir exercice 8.5) est égale à 


T 


tr{(EQM(Ériage)] = > 


i=1 


02); + k?[P'6]? 
(À; + K)? ’ 


où X'X = P diag(A;)P/. 

Cette dernière équation donne la forme de l’'EQM en fonction du paramètre 
de la régression ridge «. Nous pouvons trouver une condition suffisante sur & 
(voir exercice 8.5), condition indépendante des variables explicatives, 


20°? 
Es 

BB 
qui permet de savoir que la trace de l’'EQM de l’estimateur ridge est plus pe- 
tite que celle de l’estimateur des MC. Autrement dit, quand « < 20?/B'B, 


K 
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la régression ridge est plus précise (dans l'estimation des paramètres) que la 
régression ordinaire, au sens de la trace de l’'EQM pour les paramètres. Cepen- 
dant, cette condition dépend de paramètres inconnus & et a? et elle n’est donc 
pas utilisable pour choisir une valeur de . 


8.1.3 La régression ridge en pratique 
Centrage et réduction 


À la différence de la régression classique, où les variables sont en général 
conservées telles que mesurées, il est d’usage de centrer et réduire les variables 
explicatives. Une variable centrée-réduite X'; issue de la variable X; s'écrit 


X; = (X;-X;l:)/6;, 


où X; est la moyenne empirique de X; (i.e. Y;_, X;5/n) et 6? une estimation 
de la variance (par exemple 37%, (X;; — X,)?/n). 

En général, la valeur de 5 dépend de l’échelle de mesure de la variable 
explicative associée : 5 sera différent si la variable est mesurée en gramme ou 
en kilo. Rappelons que la régression ridge contraint la norme au carré de B 
(111) à être inférieure à une valeur 6 (voir équation (8.1) p. 199). Lors du 
calcul de la norme, afin de ne pas pénaliser ou favoriser un coefficient, il est 
souhaitable que chaque coefficient soit affecté de manière « semblable ». Une 
manière de réaliser cet équilibre consiste à centrer et réduire toutes les variables. 

Le coefficient associé à la variable 1,,, appelé coefficient constant (ou in- 
tercept en anglais) est un coefficient qui joue un rôle particulier. Il permet au 
modèle envisagé de se situer autour de la moyenne de Y, de localiser le pro- 
blème. Il n’est donc pratiquement jamais inclus dans la contrainte de norme. 
Les variables X sont déjà centrées (car centrées-réduites), l’usage consiste à 
centrer Ÿ qui est remplacée par Y — Ÿ1,. Toutes les variables étant centrées, 
il ne sert à rien d'introduire la constante dans le modèle (voir exercice 8.8). 
De même on peut remplacer la variable à expliquer Y par la variable centrée- 
réduite correspondante Y. 

À k fixé, nous obtenons un estimateur ridge donné par 


Bridge (K) = (X'X + KI) X'Y. 
Afin de retrouver les valeurs ajustées, nous calculons 
Vale) = 0% [X Bag ()] +Ÿ1l,. 
Choix de * 


Ensuite il faut choisir la valeur « optimum » de x, valeur notée & (ou la 
valeur de 6). En général cette étape est pratiquement impossible à réaliser a 
priori. La valeur & sera choisie grâce aux données, elle sera donc stochastique. 
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Méthode graphique. Une première méthode consiste à tracer un diagramme 
d'évolution des coefficients fiase(#) en fonction de «. Un diagramme similaire 
existe, utilisant non plus en abscisses k, mais le nombre effectif de paramètres 
Sont _ d? 
tr(X(X'X + KI) IX") = =, 
et M'#) = D 


i=1 J 


où di représente la j° valeur propre de XX, Rappelons que pour la régression 
classique à p variables (et donc p paramètres), nous avons Ÿ=Xx (X'X)-1X'Y 
et la trace de Px = X(X'X) !X’ vaut p, le nombre de paramètres. En gé- 
néralisant, le nombre effectif de paramètres peut être vu comme la trace de 
l'opérateur qui permet de passer de Y à Ÿ Cet opérateur est Px dans le cas 
de la régression et H*(K) = (X(X’X + «1)-!X’) dans le cas de la régression 
ridge. La démonstration de cette égalité figure en exercice 8.4. 

La valeur de À est alors choisie comme la valeur la plus petite avant laquelle 
tous les coefficients « plongent » vers 0. Ce choix est évidemment éminemment 
subjectif. 


Critères analytiques. Il est possible de choisir de manière plus analytique 
la valeur de & en suivant la recommandation de Hoerl et al. (1975) 


Zx2 
a po 
Ë — 


+ ARE = A me À 
Pidge/ridge 


où, comme toujours, 5* est l’estimateur des MC avec comme jeu de données 
(Y,X) et 6*? est l’estimateur obtenu par la procédure classique d’estimation 
issue des MC. Hoerl et al. (1976) ont également proposé une méthode itérative 
pour raffiner le choix précédent. 

D’autres méthodes analytiques existent comme le €, (Mallows, 1973) qui 
est un C, modifié 


_ SCR(K«) 


6*2 


C% 


n+2+2tr(H*(Kk)H"(K)). 


Mallows (1973) recommande de représenter le C, en fonction de v, où vx — 
1+tr(H*(K) H*(K)) représente « 2 fois le nombre effectif de paramètres » plus 
1, puisque l’on à enlevé la moyenne empirique à YŸ et que cela constitue un 
paramètre. Enfin, pour clore le chapitre des choix analytiques de k, notons une 
dernière méthode (Mc Donald & Galarneau, 1975) qui consiste à choisir & tel 
que 


p 

= À = à ä 2x2 2 

Biage (À) Briage (À) = bduaass 0" SA, 
i=1 


où d représente la j° valeur propre de X'X. Si le membre de droite est négatif, 
la valeur de k est fixée à 0, ramenant aux MC. 
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Apprentissage-validation. La procédure de validation consiste à séparer de 
manière aléatoire les données en deux parties distinctes (X,, Y,) et (X,, YA). Le 
cas échéant, le jeu d’apprentissage est centré-réduit. Les valeurs des moyennes 
et des variances serviront à calculer les prévisions sur les données de validation. 
Une régression ridge est conduite avec le jeu d'apprentissage (X,,Y;) pour 
toutes les valeurs de « possibles. En général, on choisit une grille de valeurs 
possibles pour k, comprise entre 0 et un nombre maximum. Ensuite, en utilisant 
tous ces modèles et les variables explicatives X,, les valeurs de la variable à 
expliquer sont prédites ÿridge (x) pour tous les K. 

Si les paramètres sont estimés sur des données centrées-réduites, la prévision 
des données initiales s'obtient grâce à la formule suivante : 


: ; 
ue Xi — Xajlns ri u 
ride — 2 vj aj=ny Aridge 
Y, - (K) —  OGY ; A 5; (K) mL Val: 
= Oaj 

j=1 

La qualité du modèle est ensuite obtenue en mesurant la distance entre les 
observations prévues et les vraies observations par un critère. Le plus connu 


est le PRESS 
PRESS(x) = |Pe(x) - [2 
D'autres critères peuvent être utilisés comme 
MAE(K) = [(x) -Wlh, (8.5) 


où |xlh1 = D), {xl est la norme de type [!. 

Le coefficient optimal & choisi est celui qui conduit à la minimisation du 
critère choisi. Cette procédure semble la plus indiquée mais elle nécessite beau- 
coup de données puisqu'il en faut suffisamment pour estimer le modèle, mais 
il faut aussi beaucoup d’observations dans le jeu de validation (X,,Y,) pour 
bien évaluer la capacité de prévision dans de nombreux cas de figure. De plus, 
comment diviser le nombre d’observations entre le jeu d'apprentissage et le jeu 
de validation ? Là encore, aucune règle n’existe mais l’on mentionne souvent la 
règle 3/4 dans l’apprentissage et 1/4 dans la validation (ou 1/2, 1/2). 


Validation croisée. Comme pour l’apprentissage-validation, il faut choisir 
un critère mesurant la qualité du modèle grâce à une distance entre les obser- 
vations prévues et les vraies observations. Nous nous limiterons au PRESS en 
sachant que d’autres sont possibles comme par exemple le MAE (équation 8.5). 
Ensuite une grille de valeurs possibles pour k doit être choisie. Nous choisissons 
la valeur & qui minimise le critère choisi. Pour la validation croisée de taille 1 


où y; est la 4° observation et D (x) est la prévision (c’est-à-dire que l’obser- 


vation à a été enlevée au départ de la procédure) de cette observation réalisée 
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avec la ridge régression pour la valeur K. Bien entendu, il est possible d’enlever 
non plus une observation à la fois mais plusieurs en découpant le jeu de données 
en b parties (voir la section 8.4.2 p. 228 concernant la régression PLS pour plus 
de détails). Afin d’alléger les calculs, le PRESS issu de la validation croisée de 
taille 1 peut être approché par 


- Yi — PC ) 
PRESSage © 2, | Hat) 


i=1 


ou par la validation croisée généralisée 
2 
QE (x) 
GCV = > Ar HD | : 


Ces deux dernières méthodes sont des approximations qui permettent simple- 
ment un calcul plus rapide. Si le temps de calcul n’est pas problématique, le 
calcul explicite semble plus indiqué. 


Conclusion. Mis à part l’apprentissage-validation, lorsqu'on dispose de gros 
jeux de données, aucune de ces méthodes n’est supérieure aux autres et il n’est 
pas garanti qu'elles donnent toutes la même valeur de &. Enfin, une fois la 
valeur & choisie, les estimations Bridge (À Kk) peuvent être calculées. Le choix de 
& dépendant des données, la théorie permettant les calculs des intervalles de 
confiance n’est plus valable puisque H*(K) est aléatoire. L'exercice 8.9 propose 
une construction possible d’intervalles de confiance. 


8.1.4 Exemple des biscuits 
Jeu de données 


Cet exemple est cité par Brown et al. (2001) et les données sont disponibles 
sur la page personnelle de M. Vannucci (www.stat.tamu.edu/"mvannucci/). 
Nous sommes en présence de biscuits non cuits pour lesquels on souhaite 
connaître rapidement et à moindre coût, la composition en quatre ingrédients : 
les lipides, les sucres, la farine et l’eau. Des méthodes classiques de chimie ana- 
lytique permettent de mesurer la composition des biscuits mais elles sont assez 
longues et coûteuses et ne peuvent pas être mises en ligne sur une chaîne de 
production. Il serait souhaitable de pouvoir les remplacer par la mesure d’un 
spectre d’absorbance dans le domaine proche infrarouge (ou spectre proche in- 
frarouge). Pour savoir si cela est possible, nous allons devoir essayer d’expliquer 
la composition par le spectre. 

Nous avons n, = 40 biscuits non cuits sur lesquels sont mesurés les spectres 
proches infrarouges : on mesure l’absorbance à une longueur d’onde donnée, 
pour toutes les longueurs d’ondes entre 1100 et 2498 nanomètres et régulière- 
ment espacées de 2 nanomètres. Nous avons donc 700 variables potentiellement 
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explicatives. Ensuite, pour chaque biscuit, on mesure sa composition par les 
méthodes traditionnelles. Ici nous allons nous intéresser uniquement au pour- 
centage de sucres. Nous avons donc p = 700 variables pour n, = 40 individus. 
Nous sommes bien dans le cas où l’estimateur des moindres carrés classiques 
(X/X)-1X'!Y n’est pas défini, puisque le rang de X/X vaut ici 40 et non pas 
p = 700. 

Comme nous souhaitons savoir si l’on peut vraiment expliquer le taux de 
sucres par le spectre proche infrarouge, nous disposons d’un échantillon de va- 
lidation pour comparer les méthodes. Cet échantillon de validation comporte 
ny = 32 individus et ne sera jamais utilisé pour estimer les coefficients d’un 
modèle quel qu’il soit. [l sert uniquement à comparer une méthode avec une 
autre et à connaître, pour une méthode, sa capacité de prévision. Cette sépa- 
ration en deux échantillons de tailles 40 et 32 fait partie du jeu de données et 
nous ne nous poserons donc pas la question de cette répartition. 

Les ordres permettant d'importer les données sont les suivants : 


Xbrut.app <- matrix(scan("nirc.asc") ,ncol=700 ,byrow=T) 
Ybrut.app <- matrix(scan("labc.asc") ,ncol=4,byrow=T) 
Xbrut.val <- matrix(scan("nirp.asc") ,nco1l=700 ,byrow=T) 
Ybrut.val <- matrix(scan("labp.asc") ,ncol=4,byrow=T) 


Yselec <- 2 

cookie.app <- cbind.data.frame(Ybrut.appl,Yselec] ,Xbrut.app) 

names (cookie.app) <- c("sucres",paste("X",1:ncol(Xbrut.app), 
sep="")) 

cookie.val <- cbind.data.frame(Ybrut.vall,Yselec] ,Xbrut.val) 

names (cookie.val) <- c('"sucres" ,paste("X",1:ncol(Xbrut.val), 
sep="")) 


Régression ridge 


Nous allons dans un premier temps utiliser la régression ridge. Comme cela 
est l’usage, la régression ridge sous GNU-R centre et réduit toutes les variables 
explicatives. Elle centre aussi la variable à expliquer mais ne la réduit pas. 

Rappelons que cette régression nécessite d’estimer « et 5 par & et Bridge 
sur le jeu de données d’apprentissage regroupant n4; = 40 individus et p = 700 
variables explicatives. 

Pour cela, nous allons utiliser la validation croisée et diviser les 40 observa- 
tions en 4 parties de 10 individus, de manière aléatoire. Cette séparation sera 
toujours la même quelles que soient les méthodes et elle est effectuée en utili- 
sant une fonction du package pls. Celle-ci nous donne une liste des numéros 
d'observations contenus dans chaque partie. La graine du générateur est fixée 
afin d'obtenir toujours la même partition pour les autres méthodes proposées 
dans ce chapitre. 


library(pls) 
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set.seed(87) 
cvseg <- cvsegments (nrow(cookie.app) ,k=4,type="random") 


Nous choisissons un ensemble de valeurs possibles régulièrement espacées 
pour x entre 0 et &max- Pour chaque valeur de # nous avons donc un estimateur 
Bridge (K) calculé sur toutes les observations sauf celle de la 1° partie. Ensuite 
nous calculons le PRESS sur les observations de la ° partie. Ces PRESS sont 
ensuite sommés pour obtenir le PRESS de validation croisée et nous déduisons 
la valeur & qui minimise le PRESS. Ces calculs sont effectués dans la fonction 
suivante : 


library (MASS) 
choix.kappa <- function(df,kappamax,cvseg,nbe=1000) { 
press <- rep(0,nbe) 
for (i in 1:length(cvseg)) { 
valid <- cookie.applunlist(cvseglil),] 
modele <- 1m.ridge(sucres”.,data = cookie.applunlist(cvseg[-i 
]1),],1ambda-seq(0,kappamax,length=nbe)) 
coeff <- coef.lmridge (modele) 
prediction <- matrix(coeff[,1] ,nrow(coeff) ,nrow(valid)) 
+coeff[,-1]/4*x/t(data.matrix(valid[,-1])) 
press <- press+rowSums((matrix(valid(,1] ,nrow(coeff) 
,nrow(valid) ,byrow=T)-prediction)"2) 
} 
kappaet <- seq(0,kappamax,length=nbe) [which.min(press)] 
return(list(kappaet=-kappaet ,press=press)) 
} 


Nous pouvons donc regarder l’évolution du PRESS en fonction de x et choisir 
la valeur & par validation croisée. 


kappaet <- res$kappaet 
plot(res$press) 


PRESS 
237 238 239 240 241 242 243 
1 


Fig. 8.3. Evolution du PRESS en fonction de . 
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Nous prenons donc comme valeur de 6 la valeur 0.206 x ||5|11. Nous calculons 
ensuite les prévisions et la moyenne des erreurs de prévision (ou MSEP, un 
estimateur de l'EQMP, voir équation (6.2), p. 153) via les ordres suivants : 


coeff <- coef.lmridge(lm.ridge(sucres”.,data = cookie.app, 
lambda=kappaet)) 

prediction <- rep(coeff[1,1],n.val)+as.vector(coeffl[,-1]%4%% 
t(data.matrix(cookie.vall,-1]))) 

mean((cookie.vall,1]-prediction)"2) 

modele.lm=1m(sucres”.,data = cookie.app) 

mean((cookie.vall,1]-predict(modele.lm,newdata=cookie.val))72) 


L'erreur moyenne de prévision vaut ici 4.95 alors que celui de la régression 
linéaire calculé avec la méthode standard vaut 4304. La régression ridge ap- 
porte donc une amélioration considérable à la régression linéaire ordinaire. La 
prévision par proche infrarouge du taux de sucres semble assez satisfaisante, à 
condition de bien choisir la méthode de régression. 


À titre indicatif, visualisons les coefficients obtenus par la régression ridge 
Briage(R) et ceux de la régression linéaire friage(0) = 5 grâce aux commandes 
suivantes : 


coefflm <- coef.lmridge(1lm.ridge(sucres”.,data = cookie.app, 
lambda=0)) 
matplot(t(rbind(coeff,coefflm)) ,type="1",col=1) 


50 
‘| 


ô 100 200 300 400 500 600 700 
Fig. 8.4. Valeur des coordonnées de Bridge (À) en trait plein et de Ë en trait 


pointillé. 


La figure 8.4 montre clairement que les valeurs des coefficients sont « rétré- 
cies» vers 0. 
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8.2 Lasso 


8.2.1 La méthode 


À l’image de la régression ridge, il est possible de contraindre non plus la 
norme euclidienne (au carré) ||3]|? mais la norme de type [!, à savoir [8], = 

P_, ||. Si l’on utilise cette contrainte, la méthode, appelée lasso, revient à 
trouver le minimum re défini par 


B(6)= argmin [||Y — XA|°. (8.6) 
BER?,||8||, <ô 


En général, (ô) ne peut pas être trouvé explicitement et un algorithme doit être 
mis en œuvre. Différents types d’algorithmes existent selon que l’on souhaite 
trouver (6) pour un 6 fixé ou pour un intervalle (Osborne, Presnell & Turlach, 
2000a). Au niveau de l’optimisation, le problème sous contrainte peut être 
ramené au problème de pénalisation suivant, qui est en général plus facile à 
manipuler : 


Btasso(r) = argmin |Y — X8|? — r||8|:. (8.7) 
BERP 


Les deux problèmes sont équivalents au sens où V7 € R*, il existe un 6 > O tel 
que les solutions des problèmes (8.6) et (8.7) coïncident. 

Le changement de norme pour la contrainte entre le problème du lasso et 
celui de la régression ridge induit de grosses différences. Aïnsi si on choisit une 
valeur de 7 > | X’Y |, = max; [[X'Y}];|, où [X'Y |]; désigne la j° coordonnée du 
vecteur de IR? X'Y, alors 5(r) — 0 est une solution. Il existe des valeurs finies 
de 7 pour lesquelles le vecteur de paramètres est nul et donc telles qu'aucune 
variable n’est retenue. Dès que la valeur de 7 passe sous ce seuil, la première 
variable, celle dont l’indice correspond à ||X’Y||.., est ajoutée au modèle. Si les 
variables sont centrées et réduites au préalable, cela correspond à la variable 
explicative la plus corrélée avec Ÿ, c’est-à-dire la même variable ajoutée que 
dans une sélection ascendante partant d’un modèle avec juste la constante. 


Lorsque l’on utilise la contrainte de type l!, si l’on prend une valeur de r fixée 
et comme point de départ le vecteur 0 de R?, l’algorithme ajoutera des variables 
petit à petit tout en modifiant leur coefficient, mais il pourra aussi supprimer 
des variables, rappelant la sélection alternée. Si les variables sont centrées et 
réduites au préalable, les variables ajoutées à l’étape k seront les plus corrélées 
avec les résidus du modèle de l’étape précédente, comme pour une procédure 
ascendante classique (Osborne, Presnell & Turlach, 2000b). Certaines variables 
pourront sortir du modèle, rappelant la sélection alternée. Remarquons enfin 
que cette procédure de sélection possède un critère global de choix puisqu’elle 
s'arrêtera à un minimum asso (Tr) ayant, ou non, des composantes nulles. 
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8.2.2 La régression lasso en pratique 
Centrage et réduction 


Afin de préserver la localisation (le coefficient constant) de toute contrainte, 
les données (X,YŸ) sont toujours centrées et le modèle est ensuite ajusté sans 
coefficient constant (voir exercice 8.8). Nous savons également que la régres- 
sion lasso contraint ||5]|1 à être inférieure à 7, chaque coefficient est affecté de 
manière « semblable ». Il est donc préférable que les variables soient toutes sur 
la même échelle. En préalable à toute régression lasso, il est ainsi d’usage de 
centrer et réduire les variables menant au tableau X. Il est aussi possible de 
centrer et réduire le vecteur Ÿ, donnant ainsi le vecteur Y. 

Une fois choisie la valeur optimale de 7, notée 7, ou celle de Ô, notée 6, le 
modèle de prévision sur les variables initiales sera donc 


Yiasso(T) = 0 | Aasso(7)] + Y1,. 


Choix de 7 ou de Ô 


Il faut donc choisir la valeur « optimum » de T, valeur notée 7. Comme 
pour la régression ridge, cette étape est pratiquement impossible à réaliser a 
priori. La valeur 7 sera choisie grâce aux données, elle sera donc stochastique. 


Méthode graphique. Une première méthode consiste à tracer un diagramme 
d'évolution des coefficients Giasso(r) en fonction de 7 où fiasso(ô) en fonction 
de 6. Le choix de 6 est obtenu visuellement. 


Méthode analytique. Les méthodes de C, et de GCV peuvent être adaptées 
à la régression lasso. Les définitions sont identiques à celles vues précédemment. 
Chacune fait appel au nombre effectif de paramètres que nous allons définir. 

Dans la régression multiple sur p variable explicatives, le nombre de coeffi- 
cients inconnus {8;} vaut p, c’est-à-dire tr(Px). Rappelons que l’application, 
qui à Ÿ fait correspondre Ÿ, est Px. La trace de cette application donne le 
nombre effectif de paramètres. Cette notion peut être étendue à la régression 
lasso. La définition de l’estimateur lasso est 


p 
Biasso(r) = argmin [|Y — X8|? — 7 ÿ [6], 
BER? 


j=1 


définition qui peut s’écrire 


P 
Biasso(T) — near Tr) 8/18 
ER? 


j=1 


p 
— Es I — VS 6,6} — Basso (Ô), avec ô; =T/|05|: 
ER? 


j=1 
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Par analogie, nous pouvons résoudre le problème voisin suivant (voir exercice 


8.7 p. 237) : 


P 
Bra(r) = pure IY — XB1P - D 667, 
ER? 


j=1 


et en déduire l’estimateur généralisant la régression ridge, ainsi que le nombre 
effectif de paramètres de cette méthode : tr(X(X/X — A) !X’). En suivant 
Tibshirani (1996), nous poserons donc que le nombre effectif de paramètres est 


tr(HiS0(r)) = tr(X'(X'X — TA) 1X"), 


où À = diag(|Blass°|,..., (BE) AT est un inverse généralisé de A et enfin 7 
est la valeur telle que ||(X/X — 7A-)-1X'Y|; = 6. 

Une fois ce nombre effectif de paramètres défini, nous pouvons définir la 
validation croisée généralisée comme 


2 


nm slasso 
2 LE 
GENE 2, : — tr(Hiasso(r))/n | ° 


De même, nous pouvons définir l'équivalent du C, dans le cadre du lasso 
(Yuan & Lin, 2005) par 


*lasso 
Vi — V; (Tr) lasso 
5 — —n+2tr(HS°(r)), 
où 6? est un estimateur de o?. 
Enfin, le paramètre 7 optimal, noté 7, est celui qui minimise le critère ana- 
lytique choisi. 


Apprentissage-validation ou validation croisée 


Une autre façon de choisir est d'utiliser l’apprentissage-validation ou la va- 
lidation croisée. Nous ne détaillerons pas les procédures et il suffira d’adapter 
les présentations proposées pour la régression ridge. 


8.2.3 Exemple des biscuits 


Nous reprenons encore l’exemple de la prévision du taux de sucres par un 
spectre proche infrarouge (700 variables explicatives). Le jeu de données est 
présenté en détail dans la section 8.1.4 (p. 205). Le calcul des estimateurs 
lasso pour 1000 contraintes régulièrement espacées, variant de 6 = 0 x ||5||1 à 
8 = 1 x ||Bll1, est effectué par la méthode lars. Comme cela est l'usage et à 
l’image de la régression ridge sous GNU-R, la fonction utilisée centre et réduit 
toutes les variables explicatives. Elle centre aussi la variable à expliquer mais 
ne la réduit pas. 
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Rappelons que cette régression nécessite de choisir une contrainte ô et en- 
suite d’estimer Brasso (Ô ). Pour choisir 6, nous allons prendre la valeur qui mini- 
mise la moyenne des erreurs quadratiques de prévision (MSEP). 


frac.delta <- seq(from = 0, to = 1000) 
set.seed(87) 

mse.cv <- cv.lars(data.matrix(cookie.appl, 
se=F,frac=frac.delta,use.Gram=F) 


frac.delta.et <-frac.deltal which.min(mse.cv$cv)] 


1, length = 


-1]),cookie.appl,1],K = 


Traçons l’évolution des MSEP en fonction de la fraction de contrainte : 


plot(frac.delta,mse.cv$cv,xlab="delta",ylab="MSEP") 
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Fig. 8.5. Evolution du MSEP en fonction de la (fraction de) contrainte sur les 
coefficients. 


La valeur qui minimise la MSEP vaut environ 0.206 et est notée frac.delta.et. 
Remarquons qu’une contrainte plus faible d’environ 0.11 donne des valeurs voi- 
sines du MSEP. Nous calculons ensuite les prévisions et la moyenne des erreurs 
de prévision (MSEP) avec cette valeur frac.delta.et via les ordres suivants : 


modele.lasso <- lars(data.matrix(cookie.appl,-1]),cookie.appl,i], 
use.Gram=F,plot=F) 
prediction <- predict(modele.lasso,data.matrix(cookie.vall,- 
s=frac.delta.et,mode="fraction") 
mean((cookie.vall,1]-prediction$fit)"2) 


11), 


L'erreur moyenne de prévision vaut maintenant 3.22, contre 4.95 avec la 
régression ridge et 4304 avec la régression classique. 

À titre indicatif, visualisons les coefficients obtenus par la régression lasso 
Biasso(Ô ô) en fonction de la fraction de contrainte 


plot(modele.lasso,breaks=F) 
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Nous obtenons le graphique suivant : 


TIM TI TNT 


Standardized Coefficients 


—200-150-100-50 0 50 100 


00 02 04 5 0:6 08 T-0 

ILAUa 
Fig. 8.6. Evolution de la valeur des coefficients en fonction de la (fraction de) 
contrainte sur les coefficients. 


Cependant, sans connaissance des phénomènes régissant l’absorbance en 
proche infrarouge, il n’est pas possible d'interpréter réellement ce graphique. 
Nous constatons ici, comme annoncé par la théorie, que seuls quelques coeffi- 
cients sont différents de 0 pour de fortes valeurs de contrainte (faible fraction). 
Pour la valeur sélectionnée, nous avons 16 coefficients qui sont non nuls. Si 
l’on utilise les 16 variables « sélectionnées » par la méthode lasso dans une 
régression, nous obtenons un MSEP de 82.6. Cette valeur est bien supérieure 
aux valeurs trouvées par les méthodes ridge et lasso. 


8.3 Régression sur composantes principales 


Nous allons dans ce chapitre introduire un changement de variable afin de 
reparamétriser le problème de régression et introduire les composantes princi- 
pales. La matrice (X’X) est une matrice symétrique, nous pouvons donc écrire 


X!'X = PAP, (8.8) 


où P est la matrice des vecteurs propres normalisés de (X’X), c’est-à-dire 
que P est une matrice orthogonale (P'P = I) et À = diag(A,2,..., hp) 
est la matrice diagonale des valeurs propres classées par ordre décroissant, 
An 2 ARTE XS 


Remarque 

Si l’on effectue l’analyse en composantes principales (ACP) du tableau X (ou 
du triplet (X, 1,,1,/n)), la matrice P est la matrice des axes principaux normés 
à l’unité, mais les valeurs propres de 'ACP sont les {À;} avec j variant de 1 à 
p divisés par n. 
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8.3.1 Hypothèse H; satisfaite : [X’X|] Z 0 


La matrice X est de plein rang. Analysons l'impact de la transformation 
précédente sur le modèle de régression qui s’écrit alors 


Y = XB+E 
= XPPB+e 
Y = X*F+Ee, (8.9) 


où X* — XP correspond aux composantes principales, X* = XP; et X*'X* = 
À. Lors de l’'ACP du tableau X (ou du triplet (X, I,, 1,/n)), les composantes 
principales normées à la valeur propre obtenues sont égales aux vecteurs XX 
que l’on obtient ici, d’où le nom de la méthode. Cette dernière équation (8.9) 
définit un modèle de régression que nous appellerons modèle « étoile >» qui est 
tout simplement la régression sur les composantes principales X*. Remarquons 
de plus que, par construction, 


X*'X* = P'X'XP = P'PAP'PAP'P = A. (8.10) 


Les nouvelles variables de X* sont orthogonales et de norme À; par construc- 
tion. C’est une propriété classique des composantes principales d’une ACP. 

La solution classique des MC vaut 5 = (X/X)-!X/Y et la variance de cet 
estimateur vaut 


p 
VO = TX) Am APP 
j=1 


Si maintenant nous calculons l’estimateur des MC dans le modèle « étoile », 
c’est-à-dire si nous effectuons une régression sur les composantes principales, 
nous obtenons X*{5* = X*(X*X) LX*#Y qui peut s’écrire sous la forme sim- 
plifiée suivante : X*5* = XPA-!P'X'Y. L’estimateur du modèle étoile est 
donc 


B* = ATIP'X'Y. 


Cet estimateur minimise les moindres carrés puisque les moindres carrés du 
modèle étoile et du modèle initial sont identiques par construction : 


IX -X8 = 1Y-XPP'8f = [7 - X*#* |}. 
La variance de cet estimateur vaut, en utilisant (8.10), 
V(B*) CEE Ge. +) _ oA 1. 


Les estimateurs des coefficients de chacune de ces nouvelles variables expli- 
catives sont non corrélés. La variance pour l’estimation du coefficient de la 
if variable X* est o?À; !. Pour à < j nous avons V(H#*) < V(87), cela veut dire 
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que l'estimation est plus précise sur les premières composantes principales de 
X. 
Comme les composantes principales sont orthogonales entre elles, l’estima- 
tion des G* peut se faire par régression linéaire simple sans constante sur la 4° 
a : C * 
composante principale XX. 


8.3.2 Colinéarité parfaite : |X’/X|=—0 
Reprenons l'équation (8.8) 
X'X = PAP’. 
Le rang de X vaut maintenant k avec k < p, nous avons donc les (p — k) 


dernières valeurs propres de (X’X) qui valent zéro, Àg41 = -:: = À, = 0. Cela 
veut dire que pour tout à > k, nous avons 


KA == (8.11) 


Décomposons la matrice À en matrices blocs 


A 0 . 
À — ( . 0 j A = diag(A,...,Àx), 


et décomposons la matrice orthogonale P de taille px p qui regroupe les vecteurs 
propres normés de X’X en deux matrices P, et P, de taille respective p x k et 
px (p—k). Soit P = [P;, P], nous avons alors 


X* =[XF,X5] = [XP1, X Po]. 


Cherchons maintenant la valeur de X P,. Comme le rang de X vaut k, nous 
savons que la dimension de S(X) vaut k et de même pour la dimension de 
S(X/X). Ce sous-espace vectoriel possède une base à k vecteurs que l’on peut 
choisir orthonormés. Nous savons, par construction, que P; regroupe k vecteurs 
de base orthonormés de S(X’X) tandis que P; regroupe p — k vecteurs ortho- 
normés (et orthogonaux aux k de P;) qui complètent la base de S(X’X) afin 
d'obtenir une base de R?. Nous avons donc que, quel que soit u € S(X’X), 
alors 


uw P> = "0; 


Prenons u £ 0 et comme u € S(X’X), il existe y € IR? tel que u = X’X7 £ 0. 
Nous avons donc 


YX'XP = 0, 


pour tout 7 € R? et donc X’X P; = 0, c’est-à-dire que X P2 = 0. Nous avons 
alors 


XT — [XT, X2] [X P1, X P2] ce [X P:, 0]. 
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Au niveau des coefficients du modèle étoile, nous avons la partition suivante : 


de OT 2 REED 
s-(5)-(26) 


Grâce à la reparamétrisation précédente, nous avons, avec X5 = X P2 = 0, 


Y = X*H*+E 
= XiBi + Xp +e 
= Xiffte. 


Cette paramétrisation nous assure donc que les moindres carrés dans le modèle 
initial et dans le modèle étoile sont égaux et nous allons donc utiliser le modèle 
étoile. Par les MC, nous obtenons 5* = (X*’X*)-1X*/Y et nous posons Gÿ = 0, 
ce qui ne change rien car X5 = 0. Nous obtenons l’estimateur de la régression 
sur les k premières composantes principales (principal component regression) 


Bi = AT'PIX"Y, 
de variance 
VE) = CAN) ent (8.12) 


La stabilité des estimateurs peut être envisagée par leur variance, plus celle-ci 
est grande, plus l’estimateur sera instable. Cette variance dépend ici du bruit 
qui fait partie du problème et de À;. Une très faible valeur propre induit une 
grande variance et donc un estimateur instable et des conclusions peu fiables. 

Nous avons donc que > minimise le critère des MC pour le modèle étoile. 
Comme les MC du modèle étoile et ceux du modèle initial sont égaux, à partir 
de B;, le vecteur des coefficients associés aux composantes principales, nous 
pouvons obtenir simplement BrcR, le vecteur des coefficients associés aux va- 
riables initiales, par 


Brcr = Piôr. 


Ce vecteur de coefficient minimise les MC du modèle initial. Le résultat est 
donc identique au paragraphe précédent à ceci près que l’on s’arrête aux k 
premières composantes principales associées aux valeurs propres non nulles de 
(XX). 

Ceci suggère le fait que l’on peut trouver une valeur, pour l’estimateur de 
la régression B, qui est égale à 6? Mais nous pourrions trouver une infinité 
d’autres B qui seraient aussi solution de la minimisation des MC. Ils seraient 
tels que Bz 7 0. Ceci donnerait une estimation B = P, 6: + Pole. En plaçant 
cette valeur dans les moindres carrés cela donne exactement les mêmes moindres 
carrés que ceux obtenus par BPcR. Nous retrouvons là le fait que B n’est plus 
unique car H: n’est plus vérifiée. Par contre, nous avons que Beer, est unique. 
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Puisque les résultats sont conservés quand l’on s’arrête à k, ce paragraphe 
suggère aussi que nous pouvons choisir une valeur de k de sorte que les valeurs 
propres associées {x soient suffisamment différentes de 0, éliminant ainsi 
les problèmes de quasi non-inversibilité et de variance très grande. C’est cette 
méthode que nous allons exposer dans le prochain paragraphe. Evidemment, 
si l’on élimine les composantes principales associées à des valeurs propres non 
strictement nulles voire suffisamment grandes, la solution des MC dans le mo- 
dèle initial et celle dans le modèle étoile seront différentes. Cependant, dans 
l'approche régression sur composantes principales, nous ne garderons que les 
estimateurs stables (i.e. de faible variance). Cette différence de moindres carrés 
est le prix à payer afin d'obtenir une solution unique et stable. 


8.3.3 Pratique de la régression sur composantes princi- 
pales 


Nous utilisons la paramétrisation du problème (8.9) et nous avons donc 
Y = X*H*+Ee, 


où X* — XP représente la matrice des p composantes principales, P repré- 
sente la matrice des p vecteurs propres normés à l’unité de la matrice X’X (ou 
axes principaux) associés aux valeurs propres (A1, À2,...,À,) classées par ordre 
décroissant. Nous sommes donc en présence de p nouvelles variables (les com- 
posantes principales) qui sont orthogonales entre elles. Si l’on conserve toutes 
les composantes principales, le résultat est identique à la régression classique, 
un changement de variable mis à part. 

Le but de la régression sur composantes principales consiste à ne conser- 
ver qu’une partie des composantes principales, à l’image de ce qui est fait 
en analyse en composantes principales (ACP). Les £ composantes principales 
conservées seront la part conservée de l’information contenue dans les variables 
explicatives, alors que les (p—k) éliminées seront la part d’information contenue 
dans les variables explicatives qui sera éliminée, car considérée comme négli- 
geable. Ici l'information est mesurée en terme d’inertie ou de dispersion et est 
égale à la valeur propre : plus la valeur propre À; est élevée, plus la part d’in- 
formation apportée par la composante j est importante, propos illustrés par 
l’équation (8.11). Il semble donc assez naturel de ne conserver que les com- 
posantes dont la part d’information associée est grande, à savoir conserver les 
composantes associées aux k premières valeurs propres. Les estimateurs des 
coefficients des £ premières composantes principales retenues seront les moins 
variables (8.12). Les étapes d’une régression sur composantes principales sont 
données ci-dessous. 


Centrage-réduction 


À la différence de la régression classique où les variables sont en général 
conservées telles que mesurées, il est d'usage de centrer et réduire toutes les va- 


218 


Régression - Théorie et applications 


riables au préalable, tant les p variables explicatives que la variable à expliquer 
Y. Une variable centrée-réduite X; issue de la variable X'; s’écrit donc 


Xj = (X;-X;lr)/65, 


où X; est la moyenne empirique de X, (ie. 37;_, X;;/n) et 67 une estimation 
de la variance (par exemple 3%, (X;; — X;)?/n). 

Cette pratique à pour but d’accorder la même importance pour le choix 
des composantes. En effet, si deux variables explicatives sont mesurées à des 
échelles telles que la première varie de 107% (par exemple un poids en tonne) 
autour de sa moyenne et la seconde varie elle de 10° autour de sa moyenne 
(par exemple des âges mesurés en heures), alors la composante va privilégier la 
direction ayant le maximum de dispersion, c’est-à-dire l’âge, et ce juste pour 
un problème d'unité. Cette étape est donc en général nécessaire. 

Après centrage-réduction, nous avons que le produit scalaire entre variables 
centrées-réduites est la corrélation linéaire p : 


(XX) = p(X; M). 


De plus, les composantes principales sont de norme À; et orthogonales entre 
elles. Ces composantes, qui sont des vecteurs de R?, sont des variables « syn- 
thétiques » constituées par une combinaison linéaire des variables initiales car 
X* = XP. Nous avons donc pour la j° composante principale la relation 


HP: 


donc sa moyenne empirique X ; vaut 0. Le produit scalaire entre 2 composantes 
principales est donc la covariance empirique et l’équation (8.10) se traduit sim- 
plement comme « les composantes principales sont non corellées entre elles » et 
de variances décroissantes égales à À;. 


Choix de k, le nombre de composantes du modèle 


Le problème délicat de la régression sur composantes principales est la dé- 
termination du nombre de composantes k à conserver. 


Méthode graphique. Pour déterminer k, il est possible, à l’image de ce qui 
est fait en ACP, de tracer le diagramme en tuyaux d'orgue des valeurs propres 
et de choisir le numéro k de la valeur propre après laquelle les valeurs propres 
sont nettement plus petites. En général, cette procédure est adaptée à l’in- 
terprétation (c’est-à-dire à l'ACP), mais sélectionne trop peu de composantes 
pour un modèle utilisé à des fins de prévision. 


Apprentissage-validation. La procédure de validation consiste à séparer de 
manière aléatoire les données en deux parties distinctes (X,, Y) et (Xw, Y,). Le 
cas échéant le jeu d'apprentissage est centré-réduit. Les valeurs des moyennes 
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et des variances serviront à calculer les prévisions sur les données de validation. 
Une régression sur composantes principales est conduite avec le jeu d’appren- 
tissage (X,,ŸA) pour tous les nombres de composantes principales possibles. 
Ensuite, en utilisant tous ces modèles et les variables explicatives X°,, les va- 
leurs de la variable à expliquer sont prédites ŸPCR(k) pour tous les k. Si le 
modèle est estimé sur des données centrées-réduites, la prévision des données 
initiales s’obtient à partir du modèle centré-réduit par 


VE) — Gay ÿ D Br (k) ZA le è 


La qualité du modèle est ensuite obtenue en mesurant la distance entre les 
observations prévues et les vraies observations par un critère. Le plus connu 


est le PRESS 

PRESS(k) = [fé C8(k) — of. 
D'autres critères peuvent être utilisés comme 

MAE(G) = (ÉPR)-Y I, 


où |rl1 = D), x] est la norme de type [!. 

Le nombre de composantes principales optimal 4 choisi est celui qui conduit 
à la minimisation du critère choisi. Cette procédure semble la plus indiquée mais 
elle nécessite beaucoup de données puisqu'il en faut suffisamment pour estimer 
le modèle, mais il faut aussi beaucoup d'observations dans le jeu de validation 
(X,, Ys) pour bien évaluer la capacité de prévision. De plus, comment diviser 
le nombre d’observations entre le jeu d’apprentissage et le jeu de validation ? 
Là encore, aucune règle n’existe, mais l’on mentionne souvent la règle 3/4 dans 
l’apprentissage et 1/4 dans la validation (ou 1/2, 1/2). 


Validation croïsée. Il est aussi possible de choisir & par validation croi- 
sée. Pour toutes les valeurs de k possibles (k variant de 1 à K fixé, avec 
K < rang(X)), on supprime une observation (ou un groupe de b observations) 
puis on estime le modèle sans cette (ou ces) observation(s). On peut alors pré- 
voir cette (ou ces) PAROI ) grâce à ce modèle estimé. Dans le cas d’une 
seule observation enlevée, la i°, pour un nombre de composantes k, la prévision 
est notée ÿ(;(k). On peut enfin à l’aide d’un critère, par exemple le PRESS, 
connaître la capacité de prévision d’un modèle à 4 composantes par 


1 2 
PRESSE) = = Du -5DE8(x)) . 
= D ÿi— 9) () 
Le nombre optimal k de composantes est celui qui réalise le minimum du 
PRESS, soit 


k = argmin PRESS(({). 
1E{1,...,K} 
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Calculs et estimations 


Une fois k choisi, les calculs sont identiques à ceux de la section 8.3.2. Le 
logiciel utilisé nous permet de calculer les £ premiers axes principaux du ta- 
bleau centré-réduit X. Ils sont regroupés dans la matrice P;, orthogonale. À 
partir de cette matrice, sont calculées les composantes principales XŸ = XP.. 
Nous pouvons en déduire l’estimateur des coefficients associés aux composantes 
principales, Ê = (X#X+)-1X#Y. Bien entendu, la valeur de k est choisie infé- 
rieure ou égale au rang de X*"X* et donc l'inverse (X*’X*)- 1 existe. Comme il 
est souvent difficile d'accorder une signification précise aux composantes princi- 
pales, nous pouvons réexprimer les coefficients en fonction des variables initiales 
(centrées-réduites) 


2 D+ 
Bpcr = Pib. 
Les variances des estimateurs sont égales à 


VOBE) = 9 CRU KI) = Ar, (8.13) 
V(GPcr) . oc? PA Pi. 


Enfin le modèle permet de faire de la prévision, il suffit d'utiliser le modèle 
étoile. Cela donne, si les données ne sont pas centrées-réduites, 


ŸPcr = Xfpcr, 


ou alors, si les données sont centrées-réduites, 


Comme le modèle étoile est un modèle de régression, tous les résultats s’ap- 
pliquent à ce modèle. 


Remarque 

En général k < rang(X) et donc les moindres carrés obtenus avec la régression 
linéaire et ceux obtenus avec la régression sur composantes principales sont 
différents et les coefficients n’ont aucune raison d’être identiques. Il s’agit de 
deux modélisations différentes. 


Conclusion 


L'avantage de la régression en composantes principales est de conserver une 
partie de l’information et d’utiliser de nouvelles variables qui sont orthogonales. 
Il en résulte une simplicité de calcul et une stabilité des estimations si k est 
convenablement choisi. Les composantes étant orthogonales, les tests de nullité 
de coefficients H* associés aux composantes principales ps ; (indépendantes les 
unes des autres) s’effectuent facilement. 


Régression biaisée 


221 


Un inconvénient de la régression en composantes principales réside dans le 
choix de k et un autre dans l’interprétation des variables. En effet, les nouvelles 
variables ne sont pas toujours interprétables puisqu'elles sont des combinaisons 
linéaires des variables explicatives originales. Cela est toutefois un inconvénient 
mineur car nous pouvons revenir aux variables initiales via Becr. Le retour 
aux variables initiales fait tout de même perdre la propriété d’orthogonalité 
des variables. Le principal inconvénient réside dans l'élimination des (p — k) 
composantes principales de faibles variances (ou inerties), or ce sont peut-être 
ces composantes de faibles variances qui sont les plus explicatives. 

Cette méthode n’est plus très utilisée actuellement, il est peut-être préfé- 
rable d’utiliser une régression partial least square (PLS), qui conserve les mêmes 
avantages mais qui choisit des composantes en tenant compte de leur covariance 
avec la variable Y à expliquer. 


8.3.4 Exemple des biscuits 


Nous reprenons l'exemple de la prévision du taux de sucres par un spectre 
proche infrarouge (700 variables explicatives). Le jeu de données est présenté 
en détail dans la section 8.1.4 (p. 205). 

Afin d'utiliser la régression sur composantes principales, nous devons déter- 
miner le nombre de composantes à retenir. Ce nombre k sera toujours déterminé 
par validation croisée sur 4 groupes de 10 observations. Rappelons la méthode 
proposée par le package pls. Nous contrôlons la graine du générateur afin d’ob- 
tenir toujours la même partition pour toutes les méthodes de ce chapitre. 


library(pls) 
set.seed(87) 
cvseg <- cvsegments (nrow(cookie.app) ,k=4,type="random") 


La régression sur composantes principales est conduite simplement grâce à 
la fonction per. Ici nous pouvons avoir au maximum 40 composantes principales 
(min(na,p) = na = 40), mais nous avons choisi un nombre maximum un peu 
moins grand (K — 28) pour des raisons de présentation graphique. 

Afin d'utiliser les mêmes estimateurs de variance empiriques, calculons ceux- 
ci sur les variables explicatives 


n.app <- nrow(cookie.app) 
stdX.app <- sqgrt(apply(cookie.appl,-1],2,var)*(n.app-1)/n.app) 


La modélisation est enfin obtenue grâce aux ordres ci-dessous : 


modele.pcr <- pcr(sucres”.,ncomp=-28,data = cookie.app,scale= 
stdX.app,validation = "CV",segments=cvseg) 

msepcv.pcr <- MSEP(modele.pcr ,estimate=c("train","CV")) 

plot(explvar(modele.pcr) ,type="1",main="") 


Cette fonction centre et réduit les variables et calcule aussi la MSEP pour la 
validation croisée. Nous faisons figurer aussi la part de variance des X prise en 
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compte par chaque composante. Dès la 3° composante, la part de variance des 
X expliquée par chaque composante est quasi nulle. Il ne subsiste que peu de 
variabilité initiale non prise en compte dans le modèle. 


15 
80 


40 60 


explvar(modele.pcr) 


20 


0 


75 FE 10 15 20 2 3 OS LE CE: 
number of components Index 
Fig. 8.7. Evolution du MSEP en fonction du nombre de composantes de la 


régression sur composantes principales (graphique de droite). Evolution de la 
part de variance (en %) des X prise en compte par chaque composante. 


Le nombre de composantes k est trouvé numériquement par 
ncomp.pcr <- which.min(msepcv.pcr$val["CV",,])-1 


et vaut 6. Le graphique des résidus ne montre aucune structuration particulière 
et nous ne le reproduirons pas ici. La prévision par le modèle des observations 
du jeu de validation est obtenue par 


modele.pcr.fin <- pcrr(sucres”.,ncomp=ncomp.pcr,data = cookie.app, 
scale=stdX.app) 

ychap <- predict(modele.pcr.fin,newdata=cookie.val)[,1,ncomp.per] 

res.pcr <-cookie.val[,'"sucres"]-ychap 

mean(res.pcr”2) 


Nous en déduisons que le MSEP sur le jeu de données de validation vaut 
1.03. Le résultat est donc meilleur que la régression ridge ou lasso. Il ne faut 
certainement pas en tirer une généralité. La performance des méthodes est 
surtout fonction des données que l’on utilise. 

D’autres graphiques, comme la valeur des coefficients pour le modèle final 
ou la valeur des coefficients composante par composante, peuvent être obtenus. 
Sans connaissance sur le domaine de l’infrarouge pour la détection de sucres, ces 
graphiques n’ont pas d'intérêt. A titre de curiosité nous pouvons constater que 
la diminution du nombre de composantes revient à « rétrécir » les coefficients 
vers (. 
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Fig. 8.8. Atténuation des coefficients Spor(k) en fonction de k : k — 2 (trait 
plein horizontal proche de 0), & — 6 trait tiret et k = 15 trait pointillé. 


8.4 Régression aux moindres carrés partiels (PLS) 


À l’image de la régression sur composantes principales, nous sommes in- 
téressés par de nouvelles variables explicatives 41) ,402),...4(%), combinaisons 
linéaires des variables de départ #0) = X &;, qui soient orthogonales entre elles 
et classées par ordre d'importance. Cependant, le choix de ces composantes 
doit être dicté, non pas par la part de variabilité qu’elles représentent parmi les 
variables explicatives originales, mais par leur lien avec la variable à expliquer. 

Pour cela une procédure itérative va être utilisée. Celle-ci commence en 
général par le centrage et la réduction des variables initiales (p. 218). Malgré le 
centrage et la réduction, les données centrés-réduites seront notées (X, Y) afin 
de ne pas alourdir la notion par un ”. 


Définition 8.1 
Quand Y est univarié, la régression PLS est appelée PLS1 et elle se définit 
itérativement. 


- 1" étape : le tableau X est noté X() et Y noté Y(). La première composante 
PLS 4) ER" est choisie telle que 


F0) = argmax PE: 
t=Xw,weR?,|w|2=1 


Ensuite nous effectuons la régression univariée de Y ®) sur #4) 
yo — rit) + ê] 
où r1 € R est le coefficient de la régression estimé par MC et Ë = Pan r 


t 
sont les résidus de la régression simple sans constante ; 
- 2° étape : soit Y 2) = PT — £1 la partie non encore expliquée de Y.. 
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Soit XU) — Ph) la partie de X() n'ayant pas encore servi à expliquer. 
La seconde composante PLS est choisie telle que 


+0) = argmax CL: yo >. 
t=XC)w,wER?,|w||2=1 


Ensuite nous effectuons la régression univariée de Y 2) sur t@) 
Y® 27242 +6 
où ra € R est le coefficient de la régression estimé par MC et Ê2 = Pre ; 


- k° étape : soit Y(®) — nd — êx-1 la partie non encore expliquée 
de Y. Soit XW) — LE Te die la partie de X*-1) n'ayant pas encore servi 
à expliquer. La k° composante PLS est choisie telle que 


(RE) = argmax re, 
t=XÉ-Duw,weER?,|w|2=1 


Ensuite nous effectuons la régression univariée de Y *) sur t(®) 
YO) = y,#0) Le 
où rx € R est le coefficient de la régression estimé par MC' et Ëx = PE 


Remarque 
La régression PLS cherche donc une suite de composantes PLS qui soient ortho- 
gonales entre elles et ceci par construction. Puisque #0) est une combinaison 
linéaire des colonnes de XÜ), qui est par construction dans l’orthogonal de 
S(#0),...,40-1), alors #0) sera bien orthogonale à #0),...,#0—0), 

Ces composantes sont choisies comme maximisant la covariance (empirique) 
entre Y et une composante t quand X et Ÿ sont centrées au préalable. 


Théorème 8.1 
Nous pouvons donc écrire le modèle PLS comme 


Y = PoYO +...+PmY® +é, 
— rt) ess ret(n) + êk, 


avec Êk — Pons = ICTOM ON € 


La preuve découle de la définition en notant que les composantes PLS sont 
orthogonales entre elles. 

Ce modèle n’est pas forcément très commode puisqu'il ne fait pas interve- 
nir les variables explicatives X. En remplaçant 40) par sa valeur, nous avons 
XWw0), ce qui fait intervenir non pas les variables explicatives originales, mais 
celles de l'étape j. Il faut donc réexprimer les composantes PLS en fonction du 
tableau initial, ce qui est l’objet du théorème suivant. 


Régression biaisée 225 


Théorème 8.2 
Les composantes PLS peuvent s'exprimer en fonction des variables initiales 
sous la forme de combinaisons linéaires 


40) = XD), 1<j<k, 
où WU) est défini par 
; J : RTS A! 5 
wU) = XI[(U : w 0) (40) ES à) X}w0), 
i=1 


La preuve est à faire à titre d’exercice (cf. exercice 8.10). 
Nous pouvons récrire le modèle PLS final à k composantes en fonction des 
variables explicatives. 


Théorème 8.3 
Le modèle PLS à k composantes s'écrit 


Y — XBprs(k) +4, 


où & est le résidu final P,a1(Y ®) = Psac.sw)1(V) et B*(k) — ri) + 
sa rrüt), 


Nous sommes bien en présence d’une régression dont la prévision est donnée 
par YpLs(k) = X{GpLs(k). Si nous souhaitons revenir aux variables initiales 
après un travail sur le centrage et la réduction, la prévision s’écrit alors 


; 2 

. Rd _ 

Ypus(k) = 65 D es. rip) +Yl. 
j=1 L 


Au contraire de la régression (MC ou MCG), l’estimateur de la régression 
PLS n’est pas une fonction linéaire de Y. En effet, sauf pour k = 1, la prévision 
ne peut pas être mise sous la forme Ÿ(k) = AY où A serait une matrice non 
dépendante de Y. 

Une propriété notable de PLS est que Vk, ||6pLs(k)ll < ||BIL, où 8 est l’es- 
timateur des MC. De plus, la norme ||BpLs(k)|| augmente avec k (De Jong, 
1995). 


8.4.1 Algorithmes PLS et recherche des composantes 


À chaque étape nous cherchons à maximiser une fonction sous contrainte. 
La minimisation peut être considérée comme immédiate, mais introduisons tout 
de même la fonction lagrangien (Miller, 2000). Cela donne à chaque étape j la 
fonction suivante à maximiser : 


1 
L(8,T) = YOx y — "(lu = 1} 
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Le facteur —1/2 ne change pas fondamentalement le résultat, mais il permet 
une simplification des calculs. Une condition nécessaire d’optimum est alors 
donnée par l'annulation de ses dérivées partielles au point optimum (w(), Tj) 
donnant 


X'Y; — rw) 0 


ao) Lip 


Il 


La première équation montre que wÜ) est colinéaire au vecteur X !Y; et la 
seconde montre qu’il est normé. Si l’on veut un maximum, il suffit de prendre le 
vecteur XÜ)Y0)/|X0)Y0)]||. Le vecteur de signe opposé donnant le minimum. 
Les différents algorithmes de PLS diffèrent de manière numérique si l’on 
possède plusieurs variables à expliquer (par exemple pour PLS2, Y est alors 
une matrice n x q). Elles correspondent à différentes méthodes de recherche 
du premier vecteur singulier de Y’X : puissance itérée (algorithme nipals), 
décomposition en valeurs singulières classique (SVD) ou encore diagonalisation 
de Y'XX'Y. 
Remarque 
L’algorithme nipals propose de calculer la régression PLS même si l’on possède 
des valeurs manquantes. Pour cela, dès qu’une valeur manquante est rencontrée, 
elle est ignorée. Aïnsi le calcul devient : 


i=1l..n,yi ou X;;, non manquants 


ce qui revient, après le centrage et la réduction, à remplacer les valeurs man- 
quantes dans les données centrées-réduites par la valeur 0. 


8.4.2 Recherche de la taille k 


Plusieurs méthodes sont possibles et nous pouvons les regrouper en 4 points. 
Le premier est une méthode graphique que l’on retrouve aussi dans la régression 
ridge ou le lasso. Le second concerne les méthodes utilisant des critères simples 
tels l'ATC ou la variance expliquée. L’avant-dernier et le dernier concernent les 
procédures d’apprentissage-validation ou de validation croisée. 

En général, on recherche une taille de modèle k, ou ici un nombre de com- 
posantes k, qui soit compris entre 1 et une taille maximum K. Cette taille 
maximum peut être choisie comme K = rang(X) ou comme la taille au-delà 
de laquelle il est certain que les composantes ne serviront à rien. 


Méthode graphique 


Une première méthode consiste à tracer un diagramme d’évolution des coef- 
ficients 5*(j) en fonction du nombre j de composantes. Cette méthode visuelle 
possède l’inconvénient majeur de n’avoir aucun support analytique d’aide à la 
décision. 
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Critères analytiques 


Le premier critère analytique simple est un critère construit à l’image de 
l’AIC ou d’une correction de celui-ci afin de réduire la taille des modèles : 


AIC = nlog(8(3)) + 2(j +1) 
AIC, = lolo) + PO, 


où 6?(j) est une estimation de la variance résiduelle. On choisit # comme la 
valeur qui minimise un des deux critères précédents. 

Ces critères ne sont pas vraiment basés sur la vraisemblance et ne sont donc 
pas à proprement parler des AIC. Ils semblent moins crédibles mais sont assez 
faciles à calculer. 

Un autre critère souvent utilisé est le pourcentage de variance expliquée. Ce 
pourcentage de variance est simplement le rapport de la variance expliquée à 
l'étape j, à savoir le rapport de la variance de la variable à expliquer Y sur 
la variance de l'ajustement YpLs(j) = Psat.a)Y. Ce rapport, du fait de 
l’augmentation du nombre de composantes j, ne peut qu’augmenter à chaque 
étape. Pour trouver le nombre de composantes, il est alors classique de chercher 
le nombre k à partir duquel l’augmentation semble être beaucoup moins forte. 
Ceci est souvent mis en parallèle avec la part d'inertie du tableau des variables 
explicatives utilisées dans le modèle. Rappelons que l’inertie d’un ensemble de 
variables regroupées dans une matrice X est tout simplement définie par 


I(X) = tr (X'X). 


Ainsi I(P, XG-) = I(P,6 X) est la part d'inertie du tableau des variables 
explicatives utilisées à l'étape j. La part d'inertie utilisée jusqu’à l'étape j 
est tout simplement le rapport 37,_, I(X("))/I(X). Ce rapport augmente 
avec j et il peut aider à trancher entre les tailles déjà sélectionnées grâce au 
pourcentage de variance expliquée. Remarquons que le pourcentage de variance 
expliquée est nommé À? dans le cadre de la régression classique. Cette méthode 
demande très peu de calculs mais est très subjective. De plus, elle n’évalue pas 
réellement le pouvoir prédictif du modèle. 


Apprentissage-validation. 


La procédure d’apprentissage-validation consiste à séparer de manière aléa- 
toire les données en deux parties distinctes (X,,Y,) et (X,, Y,). Une régression 
PLS est conduite avec le jeu d'apprentissage (X4, YŸ,) pour toutes les tailles de 
modèles possibles. Ensuite, en utilisant tous ces modèles et les variables expli- 
catives X,, les valeurs de la variable à expliquer sont prédites Ÿ, (j) pour toutes 
les tailles j. La qualité du modèle est ensuite obtenue en mesurant la distance 
entre les observations prévues et les vraies observations par un critère. Le plus 
connu est le PRESS 


PRESS(j) = [fe (5) - |? 


228 


Régression - Théorie et applications 


D'autres critères peuvent être utilisés comme 
MAE = [D 5) Yel 


où {rfi = D], {xl est la norme de type !!. 

La taille optimale k choisie est celle qui conduit à la minimisation du critère 
choisi. Cette procédure semble la plus indiquée mais elle nécessite beaucoup de 
données puisqu'il en faut suffisamment pour estimer le modèle, mais il faut aussi 
beaucoup d’observations dans le jeu de validation (X,, Ÿ,) pour bien évaluer la 
capacité de prévision. De plus, comment diviser le nombre d'observations entre 
le jeu d'apprentissage et le jeu de validation ? Là encore, aucune règle n'existe, 
mais l’on mentionne souvent la règle 3/4 dans l’apprentissage et 1/4 dans la 
validation ou, plus simplement, 1/2, 1/2. 


Validation croisée. 


Lorsque l’on n’a pas assez de données pour l’apprentissage-validation, la 
validation croisée est utilisée. C’est en général la procédure la plus utilisée en 
régression PLS. Le principe est toujours le même, à savoir qu’on divise le jeu de 
données initial en b parties distinctes approximativement de même taille. Pour 
une partie donnée, par exemple la i°, on utilise la procédure d’apprentissage- 
validation, la 4° partie étant le jeu de validation et les autres observations 
formant le jeu d'apprentissage. On évalue la qualité du modèle par un critère, 
le PRESS par exemple, donnant ainsi PRESS(5);, et ensuite on itère le procédé 
sur toutes les parties à variant de 1 à b. Le critère final à minimiser est alors 


b 
PRESScvy(j) — Ÿ_PRESS(j):, 


i=1 


et la taille k retenue est celle qui conduit au minimum sur {PRESScv(5)};5 1. 
Bien entendu, le choix du nombre b de parties n’est pas anodin. Plus le nombre 
b est faible, plus la capacité de prévision sera évaluée dans de nombreux cas 
puisque le nombre d’observations dans la validation sera élevé, mais moins 
l’estimation sera précise. Au contraire, un b élevé conduit à peu d’observations 
dans la validation et donc à une plus grande variance dans les PRESS. 


8.4.3 Analyse de la qualité du modèle 


Outre les graphiques classiques, il existe des graphiques que l’on retrouve 
souvent dans les logiciels proposant la régression PLS. Le premier type de 
graphique permet de connaître la qualité d’ajustement à chaque composante 
en traçant en abscisses les coordonnées de 4Ü) et en ordonnées les coordonnées 
de y;. Comme l’on cherche tÜ) orthogonale aux précédentes composantes PLS 
mais qui maximise le produit scalaire avec y;, on devrait donc, si tout était 
parfait, avoir une droite. L'écart du diagramme à la droite de régression simple 
donne une idée de la qualité d’ajustement à l'étape j. De plus, numéroter les n 
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points permet de repérer d'éventuels point aberrants qui seraient mal ajustés 
à plusieurs étapes. 

La qualité globale sera bien sûr envisagée avec le dessin classique « ajuste- 
ment ŸpLs(k) versus résidus » donnant des indications sur la qualité du modèle 
et sur les points aberrants. 

Un autre diagramme consiste à tracer sur un graphique les coordonnées de 
tÜ) en abscisses et les coordonnées de t;-1 en ordonnées. Si aucune structure 
notable n'apparaît, alors le graphique est normal. Si, par contre, des tendances 
apparaissent, cela signifie que t;41 & ü )). Il sera bon alors de comprendre 
comment est construite &U) et de déterminer les variables contribuant à sa 
construction. Ensuite il sera bon d’ajouter de nouvelles variables, à savoir des 
variables importantes auxquelles on aura appliqué la fonction f. Si des groupes 
nettement séparés apparaissent, cela indique l'existence de sous-populations 
différentes, qu’il serait peut-être judicieux d’analyser de manière séparée. Enfin, 
les points éloignés des autres (ou aberrants) seront à noter et peuvent servir en 
complément de l’analyse globale. 

L'interprétation des composantes en termes de variables initiales (centrées- 
réduites) peut être conduite en traçant en abscisses les coordonnées du vecteur 
de poids &Ü) et en ordonnées les coordonnées du vecteur de poids &U+1), Les 
variables { pour lesquelles les to | sont élevées sont des variables importantes. 
Ces variables apparaissent donc à la périphérie d’un tel graphique, alors que 
dans le noyau central figurent les variables non importantes dans la construction 
de &Ü) ett;41. 

Un dernier graphique spécifique de la régression PLS est constitué par les 
DModxX (selon la terminologie utilisée par le logiciel SIMCA) 


v Di Psça.scy: XTS, 


DModX; = 
p—k 


7 


où v — 1 si l'observation provient d’un jeu de validation et v = n/(n — k—1) 
sinon. Cette grandeur mesure la contribution (ou plutôt la non-contribution) 
d’un individu au modèle. Pour cela nous savons que la partie des variables 
explicatives non utilisée dans le modèle est Ps. m)1X. L'élément (i,j) de 
ce tableau représente pour l'observation 4 et la variable j la part de X non 
utilisée dans le modèle PLS de taille k et donc, plus cet élément est faible, plus 
la contribution au modèle de la i° observation pour la j° variable est fort. Pour 
résumer cette contribution sur toutes les variables, le DModX est défini par la 
somme des carrés de ces contributions élémentaires, dont on prend la racine 
carrée afin de rester sur la même échelle que les variables initiales. 

Graphiquement les DModX sont représentés comme les distances de Cook 
mais s’interprèêtent dans l’autre sens. Remarquons que le logiciel SIMCA intro- 
duit aussi les DModY qui ne sont rien d’autre que la valeur absolue du résidu. 
Nous renvoyons le lecteur intéressé par une application complète de PLS aux 
cas uni- et multivariés à l’ouvrage de Tenenhaus (1998). 
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8.4.4 Exemple des biscuits 


Nous reprenons l'exemple de la prévision du taux de sucres par un spectre 
proche infrarouge (700 variables explicatives). Le jeu de données est présenté 
en détail dans la section 8.1.4 (p. 205). 

Nous n’exposerons pas ici toutes les représentations graphiques permettant 
d'examiner la qualité d'ajustement d’un modèle PLS. Pour cette méthode de ré- 
gression, et à l’image de la régression sur composantes principales, nous devons 
déterminer le nombre k de composantes PLS. Il sera déterminé par validation 
croisée sur 4 groupes de 10 observations. En utilisant le package pls nous avons 
la modélisation PLS jusqu’au nombre maximal de K — 28 composantes (voir 
8.3.4 p. 221 pour plus de détails) grâce aux ordres ci-dessous : 


set.seed(87) 

cvseg <- cvsegments(nrow(cookie.app) ,k=4,type="random") 

modele.pls <- plsr(sucres”.,ncomp=28,data = cookie.app,scale= 
stdX.app,validation = "CV",segments=cvseg) 


Le vecteur stdX.app contient les écarts-types empiriques (voir 8.3.4 p. 221 pour 
plus de détails). Le choix du nombre de composantes est réalisé graphiquement 
par 


plot(msepcv.pls,col=1,type="l1") 
plot(explvar(modele.pls) ,type="l",main="") 


La représentation graphique nous indique que 5 composantes pourraient don- 
ner un résultat presque aussi bon que le minimum numérique qui est de 10 
composantes. 
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Fig. 8.9. Evolution du MSEP en fonction du nombre de composantes de la 
régression sur composantes principales (graphique de droite). Evolution de la 
part de variance (en %) des X prise en compte par chaque composante. 


Ce minimum est obtenu simplement par 


ncomp.pls <- which.min(msepcv.pls$val["CV",,1])-1 
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Nous pouvons ensuite évaluer la capacité de prévision par le MSEP sur notre 
jeu de validation 


modele.pls.fin <- plsr(sucres”.,ncomp=ncomp.pls,data=cookie.app, 
scale=stdX.app) 

ychap <- predict(modele.pls.fin,newdata=cookie.val)[,1,ncomp.pls] 

res.pls <- cookie.vall,"sucres"]-ychap 

mean(res.pls”2) 


Cela donne un MSEP d’environ 4, ce qui s’inscrit entre la régression lasso (3.22) 
et la régression ridge (4.95). Si le modèle parcimonieux à 5 composantes avait 
été choisi, alors le MSEP serait de 0.78, chiffre plus faible (et donc meilleur) 
que celui de la régression sur composantes principales. Cette remarque montre 
bien la difficulté de choisir le nombre de composantes. Il est loin d’être garanti 
qu’un modèle parcimonieux fonctionne mieux en règle générale et cela dépend 
des données. 

Pour terminer cet exemple, nous pouvons illustrer le fait que la norme 
|| 8pLs(k)|| augmente avec k. 


coefficient 


to 100 200 300 400 500 600 700 
variable 


Fig. 8.10. Rétrécissement des coefficients Bpcr(k) en fonction de k : k = 2 
(trait plein horizontal proche de 0), k = 6 trait tiret et k = 15 trait pointillé. 


8.5 Exercices 


Exercice 8.1 (Questions de cours) 
1. La régression biaisée est en général utilisée lorsque l’hypothèse ci-dessous 
(cocher la bonne réponse) n’est pas satisfaite : 
À. Hi concernant le rang de X (matrice du plan d'expérience) ; 
B. H2 concernant l’espérance et la variance des résidus ; 
C. H3 concernant la normalité des résidus. 


2. Lorsque la matrice (X’X) n’est pas inversible, l’estimateur des moindres 
carrés 
À. existe et est unique ; 
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B. existe et n’est pas unique ; 
C. n'existe pas, aucun estimateur ne minimise les moindres carrés. 
3. La régression ridge peut être vue comme une régression avec comme cri- 
tère d’estimation les moindres carrés et une contrainte de norme sur 
A. le plan d'expérience (X) ; 
B. les paramètres ; 
C. aucun rapport. 


4. La régression lasso peut être vue comme une régression avec comme cri- 
tère d’estimation les moindres carrés et une contrainte de norme sur 
A. le plan d'expérience (X) ; 
B. les paramètres ; 
C. aucun rapport. 


5. Lors d’une régression PCR, la première composante principale est la com- 
posante dont le produit scalaire avec Y est : 
A. maximum; 
B. minimum ; 
C. aucun rapport. 


6. Lors d’une régression PLS, la première composante PLS est la composante 
dont le produit scalaire avec Y est 
A. maximum 
B. minimum 
C. aucun rapport. 


Exercice 8.2 (Corrélation multiple et hypothèse H:) 

Rappelons la définition du coefficient de corrélation multiple 

Définition 

Soit Ÿ une variable continue et un ensemble de p variables explicatives continues 
notées X1,...,X,. La première variable explicative est la constante : X1 = 1. 
Le coefficient de corrélation linéaire multiple entre Y et X:,...,X, est défini 
par la valeur maximale de la corrélation (empirique) linéaire p(.) entre Y et 
une combinaison linéaire des variables X:,...,X, 


R(Y:X) = R(Y;X1,...,X9) = sup p(Y; XB). 
BER? 
1. Etablir que le R? de la régression multiple de Y sur X:,... , X} est le 


carré de p(Y: X ô) (indice : montrer que la moyenne empirique de X B 
vaut Ÿ). 


2. Soit 
X1=13, Xo = (1/V2,1/V2,-V2) et 
__[2V2-1)+3V3 2(V2-1) -3V3 NT 
Es | 7 | 7 ,2(1+ V2) : 
(a) Montrer que Y = 2X1 — 2X2 + 3n, où n = (V3/V2,-V3/V2,0). 
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(b) Montrer que | X1|| = | X2|| = fn] et que X1 L X2 L n. 
(c) Trouver Ÿ = PxY. 
(d) Construire graphiquement dans le repère (O, X1, X2,n) les vecteurs 
at 
OY et OY. 
(e) Que représente graphiquement p(Y; X ) ? 
(f) Que représente graphiquement p(ŸY ; Xa), avec a = (4, —3)'? 
(g) Déduire graphiquement que B réalise le maximum de sup sem PT; XB). 
3. Soit une variable X; et rappelons que la matrice X privée de sa j° colonne 
est notée X;,. Etablir que si R(X;; X(,,) = 1, alors H1 n’est pas vérifiée. 
En déduire alors que si X,; et X} sont corrélées linéairement (p(X;, X%) = 


1 avec j  k), alors H1 n’est pas vérifiée. 


Exercice 8.3 (fGéométrie des estimateurs) 
Soit les observations suivantes : 


Tableau 8.1. Observations d’une régression. 


X; 1 0 0 
X2 1/V3 2/V3 0 
4 1.5 0.5 1 


Soit le modèle de régression multiple (sans constante) suivant : 
Y= BiXi + Pa X2 + €. 


Les régressions ridge, lasso, PCR et PLS seront effectuées sur les variables sans 
centrage ni réduction. 


1. Vérifier que S(X) = (X) est le plan de IR? engendré par {5, 7}. 

2. Calculer Ÿ — PxY. 

3. Représenter dans le plan (i, 5) les points X1, Xo et Ÿ. 

4. Que vaut p ici? Représenter dans IR? l’ensemble B; des 8 € IR? vérifiant 
la contrainte 375, 9 = ||5|3 = 1. Faire de même avec B2 l’ensemble des 
BE R? vérifiant la contrainte 375; |8;| = [|B|1 = 1. 

5. La matrice X peut être identifiée à une application linéaire de R? dans 
R$. Donner intuitivement la forme des ensembles B: et B2 lorsqu'on leur 
applique X (ellipse, cercle, parallélogramme...). Ces ensembles notés res- 
pectivement Ci et C2 sont définis par C1 = {2 ER°,18 € B1:2— XB} 
et C2 = {2ER°,38€ B2 : 2 Xp}. 

6. Vérifier grâce à un ordinateur que les formes de C et C2 données à la 


question précédente sont justes. Dessiner C1 et C2 sur le plan (&, j) de la 
question 3. 
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7. 


10. 


Représenter géométriquement X De et À Basco sur le plan précédent 
en utilisant C1 et C2 comme contraintes pour la régression ridge et lasso 
respectivement. 


Que représente l’ensemble C'; en terme de « composante » ? Trouver gra- 
phiquement la première composante PLS grâce à sa définition. Que re- 
présente l’ajustement de Ÿ par la régression PLS à une composante, ajus- 
tement noté ŸpLs(1), en terme de projection de Y, c’est la projection de 
Y sur .….? Représenter la réponse sur le graphique. 


Calculer X’X, trouver le premier axe principal et en déduire la première 
composante principale. 

Figurer la droite portée par la première composante principale XŸ (géo- 
métriquement il s’agit du grand axe de C1). Que représente X}B en 
terme de projection de Y, c’est la projection de Y sur .…..? Représenter 
la réponse sur le graphique. 


Exercice 8.4 (Nombre effectif de paramètres de la régression ridge) 

Nous supposerons ici que toutes les variables sont centrées et réduites. Dans 
la régression multiple sur p variable explicatives, le nombre de coefficients in- 
connus {B;} est p, c’est-à-dire tr(Px). Rappelons que l’application qui à Ÿ fait 
correspondre Ÿ est Px. La trace de cette application donne le nombre effectif 
de paramètres. Cette notion peut être étendue à la régression ridge. 


1. 


Dans le cas de la régression ridge, quelle est l’application H(K) qui à Y 
fait correspondre Yriage(#) ? 

Soit À une matrice carrée symétrique p x p (donc diagonalisable et de 
valeurs propres positives ou nulles). Montrer que si U; est vecteur propre 
de À associé à la valeur propre dé, alors Ü; est aussi vecteur propre de 
A + M, associé à la valeur propre À + di. 

En utilisant la décomposition en valeurs singulières de X : X = QDP' 
avec Q et P matrice orthogonale et D = diag(d1,...,d,), montrer que 


tr(X(X'X + X,) TX") = tr(PD(D? + X,) !DP"'). 


En déduire que le nombre effectif de paramètres de la régression ridge est 


Exercice 8.5 (JEQM de la régression ridge) 
Soit le modèle habituel de régression 


1. 


Y = XB+Ee. 


Redonner la définition de l’estimateur ridge De et recalculer son biais, 
sa variance et sa matrice de l'EQM. 
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2. En utilisant la décomposition en valeurs singulières (ou valeurs propres) 
de X’X = Pdiag(À;)P’, établir que 


| T2), + K2IP'BÈ 
tr(EQM(Briage)) nn y, RE 
J 


j=1 
(Utiliser la question 2 de l'exercice 8.4) 


3. Retrouver que la matrice de l'EQM pour l’estimateur des MC est 


EQM(fuc) = o°(X'X) ! 
= (XX +ki1) XX + (XX) KL, )(X'X +KkI) 


4. Calculer la différence entre la matrice de l’'EQM pour l’estimateur ridge 
et celle pour l’estimateur des MC et montrer l'égalité suivante : 


A — EQM(Gidge) 2x EQM(5mc) 


= K(X'X + KI) l(o?(21, + k(X'X) 71) — kBB')(X'X + KI) Ÿ. 


5. En utilisant le théorème suivant, 
Théorème 
Si À est inversible, alors une condition nécessaire et suffisante pour que 
B soit semi-définie positive est que AB A' le soit aussi, 
déduire qu’une condition nécessaire et suffisante pour que À soit semi- 
définie positive est que (o?(21, + k?(X/X)71) — k6/!) le soit aussi. 

6. Démontrer que 1, —77 est semi-définie positive si et seulement si y/7 < 1 
(utiliser la décomposition en valeurs singulières (ou propres) de 77’ dont 
on calculera les valeurs propres et le théorème ci-dessus). 

7. En utilisant le théorème suivant, 

Théorème 

Si À et B sont des matrices semi-définies positives, alors pour tout à > 0 
et B > 0 la matrice a À + BB est aussi semi-définie positive, 

déduire qu’une condition suffisante pour que À soit semi-définie positive 
est que « < 20?/B/'B. 

8. Conclure sur la différence des traces des EQM des estimateurs des MC et 
ridge. 

Exercice 8.6 (Estimateurs à retrécissement - shrinkage) 
Soit le modèle de régression classique 


Y = XB+E. 


Soit la décomposition en valeurs singulières de X : 


en dE SPA 
PXxQ = = (6), 
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où P et Q sont 2 matrices orthogonales de dimension n x n et px pet À est la 
matrice diagonale des valeurs singulières {6,} de dimension p. Posons Z = PY, 
7 = QB et n = PE. 

1. Etablir que si € < W(0,0?1,), alors 


Z = Dy+, 


Zip © N(A7,0°1,) et Ziprriyn v N(0,0?1n-p). Ici Zi est le vecteur 
constitué des p premières coordonnées de Z alors que Z{,+1}n contient 
les n — p dernières. 


2. Etablir que la trace de la matrice de l'EQM pour un estimateur linéaire 
B = AY de 8 est la même que celle de 4 = QB, estimateur de 7. 


3. Etablir que l’estimateur des moindres carrés de 7 est 
ue = A Zi: 


et en déduire que mc  W(7,a?A7?). 
Remarque : l’estimateur 4mc est linéaire en Ÿ et ses coordonnées sont 
indépendantes entre elles. 


4. Montrer que l'EQM de la i° coordonnée de 4mc vaut a?/6?. 


5. Prenons un estimateur linéaire de 7 : 
(c) = diag(c;)Z1:p- 


Vérifier que ses coordonnées sont normales et indépendantes entre elles. 
Montrer ensuite l'égalité suivante : 


EQM{(ä(ch) = Ef(ch - x) = d'o° + (06; — 1)°. 


6. En déduire que si +? < gite, alors EQM((c};) < 4mc. 
Remarque : pour une condition particulière dépendant des X, il existe 


un estimateur linéaire de coordonnées indépendantes qui possède un meilleur 


EQM que celui des MC. 


7. Montrer que si €; = nr alors 


4(c) = Q(X'X +KL,)  Q'D'Z, 


et en déduire que 


B=Q'y = (X'X+kL) !X'Y. 


Remarque : pour une valeur particulière du vecteur c, nous retrouvons 
l’estimateur ridge. Ce type d’estimateur permet une généralisation de la 
régression ridge. 
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Exercice 8.7 (Généralisation de la régression ridge) 
Soit le problème de minimisation suivant (ridge généralisé) : 


P 
Bra(T;) = argmin IX — X81P — S_ r;(82). 


j=1 
Montrer qu’à l’optimum nous avons 

Bre = (X'X-A) 'X'Y, 
où À = diag{...,0,,:..). 


En déduire que le nombre effectif de paramètres est tr(X(X/X — A) IX’). 


Exercice 8.8 (Centrage, centrage-réduction et coefficient constant) 


Soit un modèle de régression Y = X 6 +e. La dernière colonne (la p°) de X est 


le vecteur 1. 


1. Soit les variables {X,} et Y et celles centrées notées { X,} et Ÿ. Montrer 
que la dernière colonne de X regroupant les variables { X,} vaut 0. La 
matrice X sera dorénavant la matrice X centrée et privée de sa dernière 
colonne de 0. Elle est donc de dimension n x (p — 1). 

2. Soit le modèle suivant : Ÿ = XB+e. En identifiant ce modèle avec le 
modèle de régression Y — Xf +e, trouver la valeur de B, en fonction 
de Bi, js NCA et des moyennes empiriques de Y et X. Ce coefficient 
B associé à la variable 1 est appelé coefficient constant (ou intercept en 
anglais). 

3. Supposons maintenant que les variables {X,;} sont centrées-réduites et 
que Y est simplement centrée. Nous continuons à les noter { X,} et Ÿ. 
Que valent f,...,/,_1 en fonction de Bi, Fat ss ? Que vaut le coeffi- 
cient constant 6, ? 


4. Même question que précédemment avec X et Y centrées-réduites. 


Exercice 8.9 (ffIC pour la régression ridge) 

Soit un modèle de régression Y = XG +Ee et nous nous intéressons à la ré- 
gression ridge. Les variables sont supposées déjà centrées-réduites. Nous allons 
considérer que & est un coefficient fixé. Nous supposerons vérifiée l’hypothèse 
H3 de normalité des résidus . Nous nous plaçons dans le cas où la régression 


ridge est utile, c’est-à-dire X Üriage (À) Z£ PxY. 

1. Dans le cadre de la régression des MC pour Y = XB+e, rappeler la loi 
de 6. 

2. Rappeler la définition de l’estimateur Briage (À). 

3. Trouver la loi de Bridge (À). 

4. Soit l’estimateur de o? issu de la régression ridge : qe 
tr(H*(&)), où tr(H*(K)) est le nombre effectif de paramètres de la régres- 
sion ridge. Nous allons considérer le vecteur aléatoire Y — Ya. Montrer 
qu’il n’est pas orthogonal à Yuc. 


= |Y—Yiage|?/(n- 
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5. Trouver le point de la démonstration du théorème 3.3 qui n’est pas assuré 
avec l’estimateur LE et l’estimateur CRE Nous en déduisons alors 
qu’il n’est plus assuré que l'intervalle de confiance de 5 en régression 
ridge soit de la forme énoncée par le théorème 3.1 (en remplaçant ô par 
Bridge et 6? par 6e). 

6. Concevoir un algorithme calculant les IC par bootstrap pour chaque co- 
ordonnée de Cie avec À considéré comme fixé. 


7. Généraliser la question précédente en incluant la détermination de &. 


Exercice 8.10 (fThéorème 8.2) 
Démontrer par récurrence le théorème 8.2 (indice : montrer aussi que X G) = 


XI - 006040) OX). 


Annexe À 
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A.1 Régression linéaire simple 


Exercice 1.1 (Questions de cours) 
B, A, B, A. 


Exercice 1.2 (Biaïis des estimateurs) 

Les B; sont fonctions de Ÿ (aléatoire), ce sont donc des variables aléatoires. 
Une autre façon d'écrire B2 en fonction de 32 consiste à remplacer y; dans (1.4) 
par sa valeur soit 


nes Ne = ARE) ERREUR SR)E 

CEE Di -3) 

Li — TE; 

>_(æi — 3) 
Par hypothèse E(e;) — 0, les autres termes ne sont pas aléatoires, le résultat 
est démontré. ; : : 
Le résultat est identique pour fi car E(f1) = E(ÿ)—-xE(B2) = 1 +702 —-702 — 
B1, le résultat est démontré. 


Exercice 1.3 (Variance de f2) 
Nous avons 


V() = v(a+ Rat). 


D (x — 2) 
Or f2 est inconnu mais pas aléatoire et les x; ne sont pas aléatoires donc 
ire D (ri D) __ VO (x -3)s) 
D,j(ri — Z)(xy —Z) Cov(es,e;) 
Dei =sŸr 
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Or Cov(s;,€;) = 6:50? donc 


à D ,(ai — x)?0? o° 
V(R) = Zi == —— 
= Gu-t D& D 


Plus les mesures x; sont dispersées autour de leur moyenne, plus V(G2) est 
faible et plus l'estimation est précise. Bien sûr, plus o? est faible, c’est-à-dire 
plus les y; sont proches de la droite inconnue, plus l’estimation est précise. 


Exercice 1.4 (Variance de Bi) 
Puisque G1 = ÿ — 2x, nous avons 


VGA) = V(y- 43) = V(H) + V(&b) —2Cov(ÿ, Pa) 
— v(2x) SDS re DE 2x Cov(ÿ, Ho) 
: — PE 28 3 [ Cov(ÿ. Bb). 
Calculons 
Cov(ÿ Be) = + Cor D (Ba + Bai + ET) 


o?1 (Ti rs à) 0 
>(x; — x)? 
Nous avons donc 
SAR 0? ox? 


V(É — LT = , 

(8) no Dai} n)(r-4) 
Là encore, plus a? est faible, c’est-à-dire plus les y; sont proches de la droite 
inconnue, plus l’estimation est précise. Plus les valeurs x; sont dispersées autour 
de leur moyenne, plus la variance de l’estimateur sera faible. De même, une 

faible moyenne Z en valeur absolue contribue à bien estimer B1. 


Exercice 1.5 (Covariance de B: et B2) 
Nous avons 


à OT 


Cov(B, B2) =  Cov(y — ot, Ba) = Cov(y, Bo) — 3 NV(B)=— 
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La covariance entre BH, et {2 est négative. L’équation ÿ — Bi + Box indique 
que la droite des MC passe par le centre de gravité du nuage (%, ÿ). Supposons 
x positif, nous voyons bien que, si nous augmentons la pente, l’ordonnée à 
l’origine va diminuer et vice versa. Nous retrouvons donc le signe négatif pour 
la covariance entre bi et Bo. 


Exercice 1.6 (Théorème de Gauss-Markov) 
L’estimateur des MC s'écrit Bo = 32°, pui, avec p; = (x; — Z)/ D (x; — Z)°. 
Considérons un autre estimateur Bo linéaire en y; et sans biais, c’est-à-dire 


i=1 


Montrons que SX; = 0et ÿ' Àx; = 1. L'égalité E(62) = DIX + BI rit 
SI XE(£;) est vraie pour tout H2 et Pa est sans biais donc E(52) — F2 pour 
tout H2, c’est-à-dire que S À; = 0 et D Àx; = 1. 

Montrons que V({52) > V(B). 


V(2) = V(É — Ba + Bo) = V(É L B2) DE V(B) +2 Cov(H2 = Bo, Da). 


eo D 


et donc 
V(B2) = V(B2 — 2) + V(B2). 
Une variance est toujours positive et donc 
V(G2) > V(B2). 
Le résultat est démontré. On obtiendrait la même chose pour Ê 


Exercice 1.7 (Somme des résidus) : 
Il suffit de remplacer les résidus par leur définition et de remplacer 51 par son 
expression 


>_ë — >_ — ÿ+ Bo — ai) = >_G 4) — Be D (wi — x) = 0. 


Exercice 1.8 (Estimateur de la variance du bruit) 
Récrivons les résidus en constatant que Bi = =ÿ- Bot et PB = y — P2t — E, 


& — it+Bti+e Bi Bat: | 
ÿ P2z E+ Bots + €j — 7 + ot — Bot 
= (D — G2)(m: — 2) + (EE). 


Il 


242 


Régression - Théorie et applications 


En développant et en nous servant de l’écriture de É2 donnée dans la solution 
de l’exercice 1.2, nous avons 


DE = (Bo — Bo) D (ri) +V (ei-e) +2 B2—B2)d (ri-r)(ei—€) 
— (8 — BY D (x: x) - Se €)? — 2(B2 82) SN (x). 
Prenons en l’espérance 
E(S Dé?) =E (Se - 2) - Sr - 2)? V() = (n - 2)02. 


Exercice 1.9 (Variance de ÿ7,:) 


Calculons la variance 


V (g41) L (à Se Bran+) = V(B) + 2% 11 V(B2) + 2æn+1 Cov (&. 82) 


| CE x)? (2 à Æ Baja ti nt) 
La _. (2e — x)? 
Dr —#) 


= Gr) 


Plus la valeur à prévoir s'éloigne du centre de gravité, plus la valeur prévue 
sera variable (i.e. de variance élevée). 


= 2 = 
FT +lpu — nt) 


Exercice 1.10 (Variance de l’erreur de prévision) 

Nous obtenons la variance de l’erreur de prévision en nous servant du fait que 
Un+1 est fonction de €,+1 seulement, alors que 0e 41 est fonction des autres €;, 
i=1,... ,n. Les deux quantités ne sont pas corrélées. Nous avons alors 


VGne)=V (ni —Di41) = V(m41)+V (41) = 07 ( | - | ——- | 


Exercice 1.11 (R? et coefficient de corrélation) 
Le coefficient R? s’écrit 


Da(étém-) Da(5- Art bu 5) 
Du (5) L D (M 0) 
> = (ei =) _ Din (ei 9 = DFE (ei — 2° 
D (ui — 9) Da Gi — 2) (ui — 9) 
___ Ehati-dw-5f 2 
Goom POP) 


R? = 
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Exercice 1.12 (Les arbres) 
Le calcul donne 


à 6.26 


10 Go = 18.34 — 0.22 x 34.9 — 10.662. 
en 0 Bo = 18.34 — 0.22 x 34.9 = 10.66 


Nous nous servons de la propriété 3%, &; = 0 pour obtenir 
20. ce 2 20 /À Be 
R? — D asrite nn ÿ) eo Da Pit = Br)? — 0.222 x 28.29 — 0,48 
= 20 = 20 = mo TNHÈQE 
Di (gi — 9)? Dre) 2.85 

Les statistiques de test valent 5.59 pour fo et 4.11 pour B. Elles sont à compa- 
rer à un fractile de la loi de Student admettant 18 ddl, soit 2.1. Nous rejetons 
dans les deux cas l'hypothèse de nullité du coefficient. Nous avons modélisé la 
hauteur par une fonction affine de la circonférence, il semblerait évident que 
la droite passe par l’origine (un arbre admettant un diamètre proche de zéro 
doit être petit), or nous rejetons l’hypothèse fo — 0. Les données mesurées 
indiquent des arbres dont la circonférence varie de 26 à 43 cm, les estimations 
des paramètres du modèle sont valides pour des données proches de [26; 43]. 


Exercice 1.13 (Modèle quadratique) 
Les modèles sont 


03 — fHi+/HB2T12+E modèle classique, 
03 = "+ 2712? +e modèle demandé. 


L’estimation des paramètres donne 


03 — 3141+2.7 T12  R?—0.28 modèle classique, 
03 — 53.74+0.075 T12? R?=0.35 modèle demandé. 


Les deux modèles ont le même nombre de paramètres, nous préférons le modèle 
quadratique car le R? est plus élevé. 


A.2 Régression linéaire multiple 


Exercice 2.1 (Questions de cours) 
À, A, B, B, B, C. 


Exercice 2.2 (Covariance de é et de Ÿ) 
Les matrices X, Px et Px1 sont non aléatoires. Nous avons alors 


Cov(é, Ÿ) = E(éŸ’) - E(é)E(Ÿ") 
= Ef[Px1e(Px(XB +e))] 
— E(Py1eB/X") +E(Pyice Px) 
= 0+Pz10?Px =0. 
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Exercice 2.3 (Théorème de Gauss-Markov) 
Nous devons montrer que, parmi tous les estimateurs linéaires sans biais, l’es- 


timateur de MC est celui qui a la plus petite variance. La linéarité de ô est 
évidente. Calculons sa variance : 


V(8) = V((X'X) 1X'Y) = (XX) IX V(Y)X(X'X) = 07 (XX) | 


Nous allons montrer que, pour tout autre estimateur 5 de S linéaire et sans 
biais, V(B) > V(B). Décomposons la variance de 8 


V(8) = V(Ë - + À) = V( — Ë) + V(Ë) — 2 Cov(ÿ — À, B). 


Les variances étant définies positives, si nous montrons que Cov(5 = f B) = 0, 
nous aurons fini la démonstration. 

Puisque B est linéaire, B — AY. De plus, nous savons qu’il est sans biais, 
c’est-à-dire E(6) — 8 pour tout 8, donc AX = 1. La covariance devient : 


Cov(ÿ — , 8) 


Il 


Cov(AY, (X'X)-1X!Y) — V(6) 
g'AX(X'X) ! —o°(X'X) ! = 0. 
Exercice 2.4 (Représentation des variables) 


Nous représentons les données dans IR? pour le premier jeu et dans IR° pour le 
second. 


A y A 7 
— 
OY. 
BAR 
AL (iS OY 
1 \'OŸ md 
DAMES. LT | — 
CL T OX e OT mOY 
À LÉ Ÿ 


Fig. 2.1. Représentation des données. 


Dans le premier modèle, nous projetons Ÿ sur l’espace engendré par X,, soit la 
droite de vecteur directeur OX. Nous trouvons par | le calcul cul À = = 1.47, résultat 
que nous aurions pu trouver graphiquement car oŸ = ô. OX. 

Considérons IR? muni de la base orthonormée (4, ie k). Les vecteurs OX et OZ 
engendrent le même plan que celui engendré par (i,). La projection de Y sur 


ce plan donne OŸ. Il est quasiment impossible de trouver re et + graphiquement 
mais nous trouvons par le calcul 8 = —3.33 et + = 5. 
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Exercice 2.5 (Modèles emboîtés) 
Nous obtenons 


Ÿ,=XB et Ÿy= Xi. 


Par définition du R?, il faut comparer la norme au carré des vecteurs Y, et Y,. 

Notons les espaces engendrés par les colonnes de X, et X, Sx, et Sx, nous 
q 

avons Sx, C Sx. Nous obtenons alors 


Pr = Px,Y =(Px; + Pxi)Px,Y = Px,Px,Y + PxiPx,Y 
= ERP 
: Va + Pxinx, 


En utilisant le théorème de Pythagore, nous avons 


PIE = IF +lPxanx, VIE > Il, 
d’où 
ÉJe LÉ 
Rp) = LL > D L R2(o. 
ME 2 TE 


En conclusion, lorsque les modèles sont emboîtés Sx, € S x, le R? du modèle 
le plus grand (ayant le plus de variables) sera toujours plus grand que le R? du 
modèle le plus petit. 


Exercice 2.6 
La matrice X’X est symétrique, n vaut 30 et z — z — 0. Le coefficient de 
corrélation 


Di 1(mi — &)(ai — 2) L Ra REP 
EX JS) à ; — 2)2 ne r- 2 2 ” V150 


Nous avons 


y = —-2+xi+zt+é 


et la moyenne vaut alors 
” ee, x 
ÿ = -2+5+2+7 Dé. 
2 


La constante étant dans le modèle, la somme des résidus est nulle car le vecteur 
é est orthogonal au vecteur 1. Nous obtenons donc que la moyenne de Y vaut 
2 car t =0 et z = 0. Nous obtenons en développant 
30 
IPF = D 2+2 +22) 
i=1 


4 + 10 + 60 + 14 — 88. 


Il 
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Par le théorème de Pythagore, nous concluons que 


SCT = SCE +SCR = 88 + 12 = 100. 


Exercice 2.7 (Régression orthogonale) 
Les vecteurs étant orthogonaux, nous avons $x = Sy & Sy. Nous pouvons 
alors écrire 


Ÿx=PxY = (Puy +Pyi)PxY 
—= PyuPxY + PuiPxY = PuY + PuinxY 
Ÿy + Ÿy. 


La suite de l’exercice est identique. En conclusion, effectuer une régression 
multiple sur des variables orthogonales revient à effectuer p régressions simples. 


Exercice 2.8 (Moindres carrés contraints) 
L’estimateur des MC vaut 


B=(X'X) X'Y, 


calculons maintenant l’estimateur contraint. Nous pouvons procéder de deux 
manières différentes. La première consiste à écrire le lagrangien 


L = S(8)- X(RB-r). 


Les conditions de Lagrange permettent d’obtenir un minimum 


DE —2X'Y +2X'X8, — R'À =0, 
d£ 
EN = RBe —T— 0, 


Multiplions à gauche la première égalité par R(X/X)-!, nous obtenons 


RO) A IRON NO ROC A) RN = 
IRL) EXT LSRE. RIXX) LR = 
=2R(X'X) IX V +2r = R(X'X) IR'À = 


Nous obtenons alors pour À 
Â=2[R(XX) PR] [r— R(X'X) LX'Y]. 
Remplaçons ensuite À 


_2X'Y +2X'X8.-RÀ = 0 
OV RAIN NC = HP ROUX) TR] (Rs ACER) PT] =" 0, 
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d’où nous calculons G4 


Be 


1 


Il 


(XX) IX'Y +(X'X) 1R'[R(X'X) TR] (r - RB) 


B+(X'X) LR [R(X'XY LR] (r — R). 


Il 


La fonction S(5) à minimiser est une fonction convexe sur un ensemble convexe 
(contraintes linéaires), le minimum est donc unique. 

Une autre façon de procéder consiste à utiliser les projecteurs. Supposons pour 
commencer que r = 0, la contrainte vaut donc RGB = 0. Calculons analytique- 
ment le projecteur orthogonal sur S,. Rappelons que dim(So) = p — q, nous 
avons de plus 


RE = 0 & BE Ker(R) 
Cie 
U'XB" = 0. où. -D—=X(X' ANT IR", 


Nous avons donc que VB € ker(R), U'XB = 0, c’est-à-dire que Sy, l’espace 
engendré par les colonnes de Ü, est orthogonal à l’espace engendré par XB, 
VB € ker(R). Nous avons donc que Sy L So. Comme U = X[(X/X) !R/|, 
Ju C Sx. En résumé, nous avons 


Ju CIx et Su Lo donc Su C (8x NS). 


Afin de montrer que les colonnes de U engendrent Sx N Sa il faut démontrer 
que la dimension des deux sous-espaces est égale. Or le rang de U vaut q (R' 
est de rang q, (X/X) ! est de rang pet X est de rang p) donc la dimension de 
Sy vaut q. De plus, nous avons vu que 


x = Vo ® (SN Ix) 


et donc, en passant aux dimensions des sous-espaces, nous en déduisons que 
dim($t NSx) = q. Nous venons de démontrer que 


Sr=Sr ns. 
Le projecteur orthogonal sur Sy = x" Ge s'écrit 
Py =U(U'U) U'= X(X'X) RIR(X'X) !RT !R(X'X) !X!. 


Nous avons alors 


Ÿ YO = PyY 
KO = RU = XOCA)TIR IRON X) ER ERA NN LXY 


= X(X'X) !RIR(X'X) LR] RÉ. 


Cela donne 


Bo = 8-(X'X) !RIR(X'X) 1R'] R$. 
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Si maintenant r £ 0, nous avons alors un sous-espace affine défini par {8 € R? : 
RG = r} dans lequel nous cherchons une solution qui minimise les moindres 
carrés. Un sous-espace affine peut être défini de manière équivalente par un 
point particulier 8, € IR? tel que RG, = r et le sous-espace vectoriel associé 
S$ = {8 € R? : RG = 0}. Les points du sous-espace affine sont alors {60 € 
PR? : Bo = Bb + B5,66 € So et PB: RB, = r}. La solution qui minimise les 


moindres carrés, notée Ho, est élément de ce sous-espace affine et est définie par 
Bo = BP + Bo où 
5j = Ë-(X'X) RIR(X'X) RT TRE. 
Nous savons que RG, = r donc 
RG, = [R(X'X) RIR(X'X) RT Tr 


donc une solution particulière est 8, = (X/X)-!R'IR(X'X)-!R/] tr. La solu- 
tion Ho qui minimise les moindres carrés sous la contrainte RG = r est alors 


Bo = BD + 8 
= (XX) RIR(X'X) 1RT r+ 8 (X'X) 1 R'[R(X'X) 1R] lRB 
= B+(X'X) LR'IR(X'X) LR] (r — RB). 


A.3 Inférence dans le modèle gaussien 


Exercice 3.1 (Questions de cours) 
À, C, A, B, B. 


Exercice 3.2 (Théorème 3.1) 

L'IC (i) découle de la propriété (i) de la proposition 3.3. La propriété (ii) 
donnant un IC pour o? découle de la loi de 6?. Enfin, la propriété (iii) est une 
conséquence de la loi obtenue propriété (ii) de la proposition 3.3. 


Exercice 3.3 (Test et R?) 
En utilisant l’orthogonalité des sous-espaces (fig. 3.3 p. 62) et le théorème de 
Pythagore, nous avons 


So —ŸI = léol? —1él?. 


Nous pouvons le démontrer de la manière suivante : 


(= VTEVETIÉ 
=  |léo|? +11? +2Ÿ -Y,Y -Ÿ) 
lol? + IE? — 2% — Ÿ,Y — Ÿ) 
= |léol? +]? - 2PxaY, Px1Y) 
= [léol? + ll? — X(Pxi + Px)PxaY, PxiY). 


Yo — Ÿ1? 


Corrections des exercices 


249 


Or S(Xo) € SX), nous avons donc Px1Px1 = Px1. De plus, ê = Px1Y, 
cela donne 
= |[é|? +0. 


Le résultat est démontré, revenons à la statistique de test. Introduisons les 
différentes écritures du R? 


me _IÉ-FE él 
WP  -7F 


La statistique de test vaut 

Iéol? — él? nr» 

[Y —Y]? P—?P0o 

él? /1Y — I? — NÉ - YIË r -» 


F — 


IX —Y12/1Y - YI2 P— po 
nous obtenons 
F = R?2-R$in-9p 
LR pp 


soit le résultat annoncé. Cette dernière quantité est toujours positive car R? < 
R? et nous avons là un moyen de tester des modèles emboîtés via le coefficient 
de détermination. 


Exercice 3.4 (Ozone) 
Les résultats sont dans l’ordre 


6.2, 0.8, 6.66, —1.5, —1,50,5,124. 


La statistique de test de nullité du paramètre se trouve dans la troisième co- 
lonne, nous conservons H, pour les paramètres associés à Ne9 et Ne12, et la 
rejetons pour les autres. La statistique de test de nullité simultanée des para- 
mètres autres que la constante vaut 50. Nous rejetons Ho. 

Nous sommes en présence de modèles emboîtés, nous pouvons appliquer la 
formule adaptée (voir l'exercice précédent) : 


Fr - R=Rin-p 
1—R? p—50 
_ 066-0512 
1=066 2 


Nous conservons Ho, c’est-à-dire le modèle le plus simple. 
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Exercice 3.5 (Equivalence du test T et du test F) 
Récrivons la statistique de test F, en se rappelant que Xo est la matrice X 
privée de sa j° colonne, celle correspondant au coefficient que l’on teste : 


IX — Pro XÔI2 _ IX: — ÉsPxo Xl? _ 2 
Fe un DR nn 


Récrivons maintenant le carré de la statistique T en explicitant 6 : 
“3 


22 
T2 LL b; 
FAO Tu” 
où [(X/X) !];; est le j° élément diagonal de la matrice (X/X) !. Afin de 
calculer ce terme, nous utilisons la formule permettant d'obtenir l’inverse d’une 
matrice bloc, formule donnée en annexe B.2 p. 283. Pour appliquer facilement 
cette formule, en changeant l’ordre des variables, la matrice X devient (X0|X;) 
et X’X s'écrit alors 
XIX0 | XUX,; 
/ = 0<+0 02 j 
vx = (tan) 


Son inverse, en utilisant la formule d’inverse de matrice bloc, est 


(AUX) = (XX — KE o(XGXo) XX) = (Xi — Px)X) 

Nous avons donc 1? — F. Au niveau des lois, l'égalité est aussi valable et 
nous avons que le carré d’un Student à (n — p) ddl est une loi de Fisher à 
(1,n — p) ddl. Bien entendu, le quantile (1 — «) d’une loi de Fisher correspond 
au quantile 1 — a/2 d’une loi de Student. La loi 7 est symétrique autour de 0 
et donc, lorsqu'elle est élevée au carré, les valeurs plus faibles que t,_,(a/2), 
qui ont une probabilité sous Ho de «/2 d’apparaître, et celles plus fortes que 
tn-p(1 — a/2), qui ont une probabilité sous Ho de a/2 d'apparaître, deviennent 
toutes plus grandes que es 1—a/2). La probabilité que ces valeurs dépassent 
ce seuil sous Ho est de a et correspond donc bien par définition à fin-p(1— a). 


Exercice 3.6 (Equivalence du test F et du test de VM.) 
Nous avons noté la vraisemblance en début du chapitre par 


2 


n n/2 n p 
1 1 
ms) = [ru-() ln 
i=1 j=1 


i=1 


1 n/2 1 : 
= ——|Y — X ; 
Gi) fiv - xs 


Cette vraisemblance est maximale lorsque B est l’estimateur des MC et que 
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82 = ||Y — XB||?/n. Nous avons alors 


n/2 
n nm 
max L(Y, 0° = RE EE Exp | —— 
do Free (5) 


= (ep (1) = 208,69). 


où SCR = |Y — XG|?. 
Sous l’hypothèse Ho nous obtenons de façon évidente le résultat suivant : 


n 


n/2 

n a 
ne À Le Y. 22 
SE) exp ( ) Lo(Y, Bo, 66), 


He Bo, a?) = ( 


où SCRo correspond à la somme des carrés résiduels sous Ho, c’est-à-dire 
SCRo = |[Y — XoHo||?. 

On définit le test du rapport de vraisemblance maximale (VM) par la région 
critique (Lehmann, 1959) suivante : 


À 22 
= {verra 20 al 


L(Y, 6,6?) 


La statistique du rapport de vraisemblance maximale vaut ici 


SPENCER 7e 

_ (SCRo - LSCR | 
Le test du rapport de VM rejette Ho lorsque la statistique À est inférieure à 
une valeur À définie de façon à avoir le niveau du test égal à a. Le problème 


qui reste à étudier est de connaître la distribution (au moins sous Ho) de À. 
Définissons, pour À positif, la fonction bijective g suivante : 


g(À) = À72/7 2 1. 


La fonction g est décroissante (sa dérivée est toujours négative), donc À < À 
si et seulement si g(À) > g(Ao). Cette fonction g va nous permettre de nous 
ramener à des statistiques dont la loi est connue. Nous avons alors 


g(N) > g() 
SCRo — SCR 


SCR g(o) 
n —p SCRo —SCR f 
p — Po SCR 9 


où fo est déterminée par 


n —p SCRo — SCR 
P. = 
GR sm #)-e 
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avec la loi de cette statistique qui est une loi F,_», n-» (cf. section précédente). 
Le test du rapport de VM est donc équivalent au test qui rejette Ho lorsque la 
statistique 

_ _n—p SCRo —-SCR 

“pp  SCR 
est supérieure à fo, où fo est la valeur du fractile a de la loi de Fisher à 
(p — po,n — p) degrés de liberté. 


Exercice 3.7 (Nouvelles propriétés) 
Nous allons utiliser le théorème de factorisation. Une statistique T(y1,--- ,Un) 
est dite exhaustive si nous pouvons écrire la vraisemblance de la façon suivante : 


£L(Y,B, 0°) m 9802) (T(y1; a :Yn))-R(y1, PO Un) 
Par le théorème de Pythagore, nous avons 
I — X81? = AY —-Ÿ +Ÿ — X87 = 1Y — PI +IŸ - XAI. 


Cette décomposition nous permet d'écrire la vraisemblance de la manière sui- 
vante : 


à NE 1 
so = () vf -Xa* 


270? 


1 n/2 1 se L 
= Ge) el (Ir -Pir+1f x 812) 


270? 


(ha) opf-4 (nn + 1x6 - xa16)] 
= gs Te un) 


Il 


La statistique T(y1,--: ,Yn) — (B, 6?) est donc exhaustive. Afin de montrer que 
cette statistique est complète, nous allons d’abord montrer que le modèle est 
un modèle exponentiel. Soit 


IX -X81 = -X8)Y(Y —X6) = |YI? 28 X'Y + |XB8. 


Nous avons donc 


n/2 1 
co () ef -xsle| 


Ses L (lee 28x77) Lx 42 
7 | 9702 4 202 XP 20? 


1 p 
= K(B,0°)exp T5 IX? -238;(x'Y); 


j=1 


p 
= K(B,0°)exp [Appui + D XT |, 


1 
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où 


B B 1 


To = (D=(X Th, To = (AY) Ton = PI): 


Par définition d’un modèle exponentiel, la statistique Test complète. Afin de 
montrer qu'il en est de même de (/3,6?), il faut vérifier l'existence d’une ap- 
plication bijective entre (Ë, 62) et T. Soit (3,62) fixé. Le vecteur (T1,--:,T,)' 
s'écrit X'Y et nous avons (X’/X)(X/X)-!X'Y — (X'X)5. Choisir un B re- 
vient à fixer un unique (T1,--- ,T,). Inversement, puisque (X’X) est inver- 
sible, choisir (T1,--- ,T,) revient à fixer 6. La dernière coordonnée T, »+1 s'écrit 
IF = IT 12 + |é? d’après le théorème de Pythagore. Nous avons donc 
Ti IX GI + (n — p)é? qui est défini quel que soit (B,6?). 


Le passage de (6,6?) à T est donc une application g : 
(6) T: 98,67) = (XX), IX ÉIP + (n - 962). 


À un vecteur (8,6 ÿ2) correspond donc un vecteur T. De plus, à un vecteur T 
quelconque correspond un @ unique car À = (XX) !(T1,-.. ,T,). Comme 
B est unique et fixé par (T:,--- ,T,), alors il correspond à un unique 6? à 
T1 = ||X BI? + (n — p)é?. Grâce au théorème de Lehmann-Scheffe, (8,62) 
est optimal dans la classe des estimateurs sans biais de (/3,a?) et ô est donc 
optimal parmi les estimateurs non linéaires. 


A4 Validation du modèle 


Exercice 4.1 (Questions de cours) 
C si 1 fait partie des variables ou si 1 € S(X), A, C, C, A. 


Exercice 4.2 (Lemme d’inversion matricielle) 
Commençons par effectuer les calculs en notant que la quantité u/Mlv est un 
scalaire que nous noterons k. Nous avons 


M! M1 
(M + uv) (a — 


1+uwM-lv 
_ y MM UM pt uv'M=luv M! 
1+k 1+k 
: FA EMEMr Lhuv MT + kuv M! = ukv M! 
_ 1+k 


Le résultat est démontré. 
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Exercice 4.3 (Résidus studentisés) 
1-2. Il suffit d’utiliser la définition du produit matriciel et de la somme matri- 
cielle et d'identifier les 2 membres des égalités. 


3. En utilisant maintenant l'égalité (4.4) sur les inverses, avec u = —x; et 
v = x}, nous avons 

Cd.) 
1—x (XX) 1x; 


XX) =(X'X mx) l=(X'X) 


La définition de h;; = x,(X/X) lx; donne le résultat. 


4. Calculons la prévision où Bu est l’estimateur de 5 obtenu sans la i° ob- 


servation 
Der = XX) XV 
X'!'X —1 à !(X'!X —1 
RS eu S. 
Rte 1—hj 1 Te 7 


L— Tr Le Han 
5. Ce dernier résultat donne 
Ë = (1— hu}(ui — %). 


Nous avons alors 


JE ou = 
FT 6 VI hù 

2 (1 — hi)(u — 9) 
O(i) 


Pour terminer, remarquons qu’en multipliant l'égalité de la question 3 à 
gauche par x! et à droite par x; 


h2 
XX) ti = hi =, 
(XGA) nee 
hi hi: 
= av at 
1+r(XhX() am = en 


6. Utilisons l’expression 


Yi 0 
Gal + XX) ls 
(i) il (GA (Gi) î 


tt = 
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Nous pouvons alors appliquer la preuve de la proposition 3.4 p. 59, en 
constatant que la i° observation est une nouvelle observation. Nous avons 
donc n — 1 observations pour estimer les paramètres, cela donne donc un 
Student à n — 1 — p paramètres. 


Exercice 4.4 (Distance de Cook) 
Nous reprenons une partie des calculs de l'exercice précédent : 


Bo = XoX) XX Y 


= (CX) IX Y ul + 


=. (XX) rx (XX) EXT — y] 


hi 
1—h;; 


CMOS LR N) oi (XX) ay, 


1— hi 


d’où le résultat. Pour obtenir la seconde écriture de la distance de Cook, nous 
écrivons d’abord que 


By — B = = (EX) 
Puis nous développons 
de à À < : 
CG = — (Gr - PY'X'X (BG — P) 
pô 


Le résultat est démontré. 


Exercice 4.5 (Régression partielle) 
Nous avons le modèle suivant : 


PxiY = BjPxiX;+n. 
J J 
L’estimateur des moindres carrés B; issu de ce modèle vaut 
B; = (XiPraX;) Xi PraY. 
ri 3 


La projection de Y sur S(X5) (i.e. la prévision par le modèle sans la variable 


X;) peut s’écrire comme la projection Y sur S(X) qui est ensuite projetée sur 
S(X5), puisque S(X;) € S(X). Ceci s’écrit 
PxY = Px;PxY = Px,XB = Px,(X565 + B;X5) = X305 + B;Px, X5, 


et donc 


X30; = Px,Y — B;Px, X5. 
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Récrivons les résidus 
ËÊ = PyiaY =Y-XB-Y-X;h;—B;xX; 
= Y-Px;Y+B;Px;X;—B;X; 
= (1 Px;)Y — BA — Px;)X5 
= PxiY- BiPxa X5. 
En réordonnant cette dernière égalité, nous pouvons écrire 
Pay = BiPxiX; + é. 
Nous avons alors 
De: = (XPxa X5)  XPxaY 
Æ (XiPxiX;) XS(B Pi X; + 6) 
= Àj+(XPxi XXE). 


Le produit scalaire X°é = (X;,é) est nul car les deux vecteurs appartiennent 
à des sous-espaces orthogonaux, d’où le résultat. 


A.5 Régression sur variables qualitatives 


Exercice 5.1 (Questions de cours) 
À, A, C, B. 


Exercice 5.2 (Analyse de la covariance) 
Nous avons pour le modèle complet la matrice suivante : 


1 ENS 0 T11 re 0 

1 0 Tin] 0 
X—= sa 

0 1 0 TI1 

0 Fee 1 0 rar Tiny 


et pour les deux sous-modèles, nous avons les matrices suivantes : 


1 ce 0 T1 1 Ti1 c. 0 

À 0 Tin] 1 Tin] 0 
= ... X= |... 

0 1 TI1 1 0 TJ1 


Corrections des exercices 


257 


Dans le modèle complet, nous obtenons par le calcul 


ni 0 ce Dœa 0 ce Dyir 
0 ce NI 0 ce Dœir n D wir 
X'X = X'Y — è 
Dæi 0 e x? 0 vs DDETET 
0 ce. Dir 0 ... Dr? D œiryir 


Une inversion par bloc de X’X et un calcul matriciel donnent le résultat indi- 
qué. 
Une autre façon de voir le problème est de partir du problème de minimisation 


I Ni 
| 2 
min ÿ ÿ (ui; — @j — Bit) 


i=1 j=1 
Ni 1121 

= min ÿ (y51 — @1 — Bizn) re ÿ (Yÿr — Qr — Brxyr) 
j=1 j=1 


Cela revient donc à calculer les estimateurs des MC pour chaque modalité de 
la variable qualitative. 


Exercice 5.3 (Estimateurs des MC en ANOVA à 1 facteur) 

La preuve de cette proposition est relativement longue mais peu difficile. Nous 
avons toujours Ÿ un vecteur de R” à expliquer. Nous projetons Y sur le sous- 
espace engendré par les colonnes de À,, noté S'4., de dimension I, et obtenons 
un unique Ÿ. Cependant, en fonction des contraintes utilisées, le repère de & À 
va changer. 

Le cas le plus facile se retrouve lorsque 1 = 0. Nous avons alors 


ni O0 -.. 0 Da Y15 

n2 . 

(AA) = D cn JO 3 (AY) = De Y2j 
O +. O0 nr » Ur; 


d’où le résultat. La variance de à vaut a?(A!A.) 1 et cette matrice est bien 
diagonale. 

Pour les autres contraintes, nous utilisons le vecteur &;; de IR” dont toutes 
les coordonnées sont nulles sauf celle repérée par le couple (i,j) qui vaut 1 
pour repérer un individu. Nous notons e; le vecteur de IR” dont toutes les 
coordonnées sont nulles sauf celles repérées par les indices à, j pour j = 1,---,n; 
qui valent 1. En fait, ce vecteur repère donc les individus qui admettent la 
modalité à. La somme des é; vaut le vecteur 1. Les vecteurs colonnes de la 
matrice À, valent donc &1,:--,€7. 
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Considérons le modèle 


Y = pl + aiéi + a262 + --: + ayér +E. 


Voyons comment nous pouvons récrire ce modèle lorsque les contraintes sont 


satisfaites. 


1. ai = 0, le modèle devient alors 


Y = ul +06 + a2é2 +: +arér +E 


= pl +aé +: +aré; +e 
= [1,62,-.- ,érl8+e 
À fes = 0) fon = 0) + E: 


2. D n;a; = 0 cela veut dire que ar = — SA n;a;/nr, le modèle devient 
4 pl +aéi +... +ar er — N° TT +E 
: NI 
j=1 
: _ n1 = NI-1 - 
ul + a1(e Er) +-.-+ar-1(8r 1 — Er) +E 
NI NI 
; 5 = Lu , M 
ul+ad+...+ar i0r ie où 0, = (é — m0 
I 
3. ÿ @; = 0 cela veut dire que ar = — > a;, le modèle devient 
TT 
Y  — ui + ajéi +. +ar_1er 1 Sd ae +e 
j=1 
piPorer er) Ho (er = er) RE 
—= Bi + oi +: +ar-iür-1 + € OÙ U; = (é; — €r) 


ADS 0 DD oi= 0) À É 


Dans tous les cas, la matrice X est de taille n x I, et de rang 7. La matrice X’X 
est donc inversible. Nous pouvons calculer l’estimateur re des MC de £ par la 
formule 8 = (X/X)-!X/Y et obtenir les valeurs des estimateurs. Cependant ce 
calcul n’est pas toujours simple et il est plus facile de démontrer les résultats 
via les projections. 


Les différentes matrices X et la matrice À engendrent le même sous-espace, 
donc la projection de Y, notée Ÿ dans ce sous-espace, est toujours la même. 
La proposition (5.2) indique que 


Y = te +... +vyrér. 


Avec les différentes contraintes, nous avons les 3 cas suivants : 
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1. ai = 0, la projection s’écrit 


Y = 1 + 26 +---+@rér. 


2. Sn;a; = 0, la projection s’écrit 


1-1 À 
, A & x - NjQj 
D — BA + né +. + rer — D 1 der. 
3 nI 
j=1 
3. Da; — 0, la projection s'écrit 
1-1 
Y — äl + dei Er àr-1e1_1 — DC 
j=1 


Il suffit maintenant d'écrire que la projection est identique dans chaque cas et 
de remarquer que le vecteur 1 est la somme des vecteurs é; pour À variant de 


1 à Z. Cela donne 


1. ai = 0 
yiéi +-°-+Uyrér 
= 1 + sé +: + ré] 
— ei +(à+@2)é2-.-(R + àr)ér 


I-1 x 
RS : 3 ny 
= A1 + Gé +++ rien 1 — D 126; 
: NI 
j=1 
I—1 D 
= (à+éa)éi +: + (à + âr-1)er 1 + (à — nr 8 


él UE 
1-1 
= l+ûié +: +Àr 1er 1 — Ÿ ôje 
f=i 


— (à + G1)e +. + (+ à 1 er 1 + (à à Sao 


En identifiant les différents termes, nous obtenons le résultat annoncé. 
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Exercice 5.4 (Estimateurs des MC en ANOVA à 2 facteurs) 

Nous notons &;,4 le vecteur de IR’? dont toutes les coordonnées sont nulles sauf 
celle indicée par ijk qui vaut 1. Sous les contraintes de type analyse par cellule, 
le modèle devient 


Yijk =  Vij + Eijks 
et donc matriciellement 
Y =XBG+E X = (er1,e12,...,ery), 


où le vecteur €;; — DE &ijr. Les vecteurs colonnes de la matrice X sont or- 
thogonaux entre eux. Le calcul matriciel (X/X)-!X'/Y donne alors le résultat 
annoncé. 


Exercice 5.5 (Estimateurs des MC en ANOVA à 2 facteurs, suite) 
Nous notons &;,4 le vecteur de IR’? dont toutes les coordonnées sont nulles sauf 
celle indicée par i7k qui vaut 1. Nous définissons ensuite les vecteurs suivants : 


NE 5 F Sr Su RE L 
Cij — Cijk Ci. — Ci Ej — Cij € — Cijk- 
k j i ä,3,k 
Afin d’effectuer cet exercice, nous définissons les sous-espaces suivants : 


E1 := {mé, m quelconque} 


E> (2 ua. 2% = 0} 
Es := Due DD = 0} 
Œ Cijéijs DE =0et sie = 0}. 


Ces espaces E1, E2, E3 et E1 sont de dimension respective 1, 1 —1, J—-1 
t (1 — 1)(J — 1). Lorsque le plan est équilibré, tous ces sous-espaces sont 
orthogonaux. Nous avons la décomposition suivante : 


Il 


Il 


E4 


E=E106E:@E: 0 EE. 


La projection sur Æ peut se décomposer en une partie sur ÆE,---,E4 et l’esti- 
mateur des MC est obtenu par projection de Y sur Æ. Notons Pg1, Pg, Pr,, 
Pg,, Pp, et Pp, les projections orthogonales sur les sous-espaces Et, E, E, 
E>, E3 et E41, nous avons alors 


PE Y = ÿ1, 


puis, en remarquant que projeter sur le sous-espace engendré par les colonnes 


de À — [&:.,--- ,ë7.] est identique à la projection sur E1 @ E2, nous avons alors 
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avec 1 = ÿ,6;, 


PAaY = Dome. donc Pp,Y = SG. pré 


t 


De la même façon, nous obtenons 


Pe(Y) = (5-9) 65, 


j 


PEY) = d (Ga nm CS 
ij 

Pi(Y) = dise — Yij) Eije 
ijE 


où &;5r est le vecteur dont toutes les coordonnées sont nulles sauf celle indicée 
par ijk qui vaut 1. En identifiant terme à terme, nous retrouvons le résultat 
énoncé. 


Exercice 5.6 (Tableau d'ANOVA à 2 facteurs équilibrée) 

Lorsque le plan est équilibré, nous avons démontré, que les sous-espaces E1, E», 
E3 et E1 sont orthogonaux (cf. exercice précédent) deux à deux. Nous avons 
alors 


Y = Pa) + Pp,(9) + Pe,(Ÿ) + Pa, (9) + Ppi(Ÿ). 


Nous obtenons ensuite par le théorème de Pythagore 


Il 


IX — YI? PRO + PAIE + PAG + Pre 
SCT = SCA + SCg + SC18 + SCR, 


où 


SCT — DD > Eux 5) 


SCA — Jr S (uw. - 5) 


SCs = Ir D (y5 -5) 


j 
SCap — FN Ge — Yi. — Y.. + ÿ)° 
à  j 
SCR — SOS OS Guise — W5). 
à ji Rk 
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A.6 Choix de variables 


Exercice 6.1 (Questions de cours) 

À, C, B en général. Un cas particulier de la dernière question est le suivant : 
si les variables sélectionnées £ engendrent un sous-espace orthogonal au sous- 
espace engendré par les variables non sélectionnées £, alors C est la bonne 
réponse. 


Exercice 6.2 (Analyse du biais) 

La preuve des deux premiers points s’effectue comme l’exemple de la section 
6.2.1. Nous ne détaillerons que le premier point. Supposons que |é| soit plus 
petit que p, le «vrai» nombre de variables entrant dans le modèle. Nous avons 
pour estimateur de B 


Be = (XEXe) XEY = PxeY. 
Le vrai modèle étant obtenu avec p variables, E(Y) = X,5. Nous avons alors 


= PxeXelle + Px,XEbe. 


Cette dernière quantité n’est pas nulle sauf si S(Xe) L S(Xx). Comme Be est 
en général biaisé, il en est de même pour la valeur prévue ÿe dont l’espérance 
ne vaudra pas X f. 


Exercice 6.3 (Variance des estimateurs) 

L’estimateur obtenu avec les |é| variables est noté Ge et l’estimateur obtenu 
dans le modèle complet ô. Ces vecteurs ne sont pas de même taille, le premier 
est de longueur |£|, le second de longueur p. Nous comparons les |[£| composantes 
communes, c’est-à-dire que nous comparons Êe et [ôle. Partitionnons la matrice 
X en Xe et Xe. Nous avons alors 


; XEXE XIXe 
VB) # IX. X : 
XEXe XEXE 


—1 


En utilisant la formule d’inverse par bloc, donnée en annexe B, nous obtenons 
VOB) = o[xéxe- XIXXEX IXEXE], 
alors que la variance de Be vaut 
V(B) = o[xixd 
Nous devons comparer V([6] €) et V(Ge). Nous avons 


XXe XEXEXEXE) XEXe = XUT — Pxs)Xe = XePx Xe. 
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La matrice P;1 est la matrice d’un projecteur, alors elle est semi-définie po- 
ë 
sitive (SDP) (cf. annexe B), donc X ePxa Xe est également SDP. La matrice 


XEPxiXe— X! éPxe Xe est définie positive (DP) puisque c’est V([5 le }/o?. Uti- 


lisons le changement de notation suivant : 


La matrice À est DP et la matrice B SDP. La propriété donnée en annexe B 
indique que A1 —(A+B) {est SDP, or 


V(IA]e) — V(Be) = (AT! — (A+ B) 7). 


Donc la quantité V([Ële) — V(e) est SDP. Le résultat est démontré. L’estima- 
tion, en terme de variance, de £ composantes est plus précise que les mêmes £ 
composantes extraites d’une estimation obtenue avec p composantes. 

La variance des valeurs ajustées dépend de la variance de B, le point 2 de la 
proposition se démontre de façon similaire. 

Remarque : nous venons de comparer deux estimateurs de même taille via 
leur matrice de variance. Pour cela, nous montrons que la différence de ces 
deux matrices est une matrice SDP. Que pouvons-nous dire alors sur la variance 
de chacune des coordonnées ? Plus précisément, pour simplifier les notations, 
notons le premier estimateur (de taille p) f de variance V(B) et le second 
estimateur B de variance V(B). Si V(6) — V(B) est SDP, pouvons-nous dire que 
V(G:) — V(G) est un nombre positif pour à variant de 1 à p? Considérons par 
exemple le vecteur u} = (1,0,...,0) de R?. Nous avons alors 


u! B = Ü et u, B = Bi. 


Comme V(8). — V(B) est SDP, nous avons pour tout vecteur w de IR? que 
u'(V(B) — V(B))u > 0, c’est donc vrai en particulier pour w1. Nous avons donc 
ui (V(B)—V(Éu Z 0 
u, V(B)ui — u, V(Blu > 
VOB) V(u6) 2 
V(A) > V(). 


Nous pouvons retrouver ce résultat pour les autres coordonnées des vecteurs 
estimés ou encore pour des combinaisons linéaires quelconques de ces coordon- 
nées. 


Exercice 6.4 (Utilisation du R?) 
La correction de cet exercice est identique à la correction de l'exercice 2.5, elle 
est donc omise. 
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Exercice 6.5 (Choix de variables) 

Tous les modèles possibles ont été étudiés, la recherche est donc exhaustive. 
En prenant comme critère l’AIC ou le BIC, le modèle retenu est le modèle 
M134. Comme prévu, le R? indique le modèle conservant toutes les variables. 
Cependant le R? peut être utilisé pour tester des modèles emboîtés. Dans ce 
cas, le modèle retenu est également le M134. 


A.7 Moindres carrés généralisés 


Exercice 7.1 (Questions de cours) 
B, À, A. 


Exercice 7.2 
Nous souhaitons minimiser 


2 
n 


p 
dl Bril pr, 
j=1 


i=1 
où p; est un réel positif. 


Nous pouvons écrire ce critère sous la forme suivante : 


2 2 
n n 


P 4 
D [vu Bras] => ui-) Ba], 
ji 


i=1 j=1 i=1 


où yf = pig et si; = V/pixij. Notons Pl? la matrice des poids qui vaut 
PV? = diag(,/p:). Ce dernier critère est un critère des MC avec comme obser- 
vations Y* et X* où Y* = P1/2Y et X* = P1/2X. L’estimateur vaut alors 


CT _ DA Se ie 
=, EÉLPX) LE PY 


Lorsque nous avons la constante comme seule variable explicative, X = 1, et 
nous avons alors 


Â > DiYi 


Bpond = 
. > Pi 


Lorsque les poids sont constants, nous retrouvons, non plus une moyenne pon- 
dérée, mais la moyenne usuelle. 


Exercice 7.3 
Les poids changent en fonction du point x, mais à x fixé, nous effectuons sim- 
plement une régression pondérée comme indiqué à l’exercice précédent. 
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Exercice 7.4 
Nous reprenons l'exercice 7.2. La matrice P vaut 


P = diag (KES) 
et la matrice X vaut 
1 LÉ 1 
| 
L’estimateur vaut 
B(x) = (X'PX)-!X'PY. 
Le calcul donne 


( D) DE) ( D K(=X)r, | 
DA-aK(E) Di-)k()) CX-nk (2) 


h 
Posons 


So = > A ni 
H = d (X- s)K(——) 
_ 2r (T2 
S2 = D(X- x) K( h ). 
Cela nous donne, après calcul de l’inverse, 
B(x,h) — a S2 Si DK(E#)Y; 
5682 — 5? | —Si So EX -z)K(2 Xi )Y; 


L 1 Ces m e = 
Goo — 82 À SEX — x) KEY, — SD K(EX)Y; 


et finalement, en ne prenant que la première composante de 5, nous obtenons 
le résultat énoncé. 


A.8 Régression biaisée 


Exercice 8.1 (Questions de cours) 
À, B,B,B,C, A. 


Exercice 8.2 (Corrélation multiple et hypothèse H1) 
1. Montrons que la moyenne empirique de XB vaut Y. Le vecteur moyenne 
est obtenu en projetant sur 1,. En effet, comme 


1 
Pi = 1,421) 715 =. —1,1;, 
nm 
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Re? Zn)', 


nous avons, pour une variable Z = (ZA, 


1 1 > 
: Le d + 2 


Comme 1, € S(X), nous avons 
Ÿ = PY =PiPxY = Xp, 


c’est-à-dire que la moyenne empirique de X B vaut Ÿ. 
Le coefficient de corrélation entre Ÿ et Y élevé au carré s’écrit donc 


à Ye Yevy 
0 08 $ ME — ( — 2 
[ee de GES 
_ Y-Y,y-Y+Y-ÿ} 
SE AFESP 
Dr Ve DER de L 
Y—YIIY -Y| 


EH 211721 | 
Comme (Y — Ÿ) e S(X)! et que (Ÿ — Ÿ) € S(X), nous avons (Ÿ — 


Ÿ,Y —Ÿ)=0 et donc 


(a) En effectuant le calcul nous trouvons que Y — 2X1 +2X2 = 3n. 


2. 
(b) En calculant les normes carrées, nous avons 
IXUP = 12+12+1228, 
IX = 1/2+1/2+2=8, 
IX3l? = 3/2+3/2 = 3. 


En calculant les produits scalaires, nous avons 


1x1/V2+1x1/V2+1x(-V2)=V2-V2=0, 


(Xi, X2) = 
(X1,7) = V3/V2 - V3/V2 = 0, 
(Xa,m = 1/V2x V3/V2-1/V2 x V3/V2 = 0. 


(c) La représentation graphique est : 
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Fig. 8.2. Représentation de Y, Ÿ, Y, et YA dans le repère orthogonal 
(X1, X2,n). 


(d) Nous avons ici X1 € S(X), X2 € SX) et n € S(X)T, ce qui permet 
de trouver Y : 


PxY = Px(2X1 — 2X9 + 37) = 2Px X1 — 2Px Xo + 3Pxn = 
= 2X1—-9X2—(2-V2,2- V2,2-2V92). 


(e) Puisque 1 fait partie des variables explicatives, nous avons 


; D AN # deR 
Y,Y) = ne re 
SET T2 2 


=>: = 
ce qui est la définition du cosinus de l’angle entre YY et YY. 


(f) Notons par Y, le vecteur Xa. Sa moyenne vaut Ÿ,. Nous avons 
—— ——— 


maintenant le cosinus de l’angle entre Ÿ Y et Ÿ,Y,. Graphiquement, 
la moyenne de Y,, est la projection sur X1 = 13. 


(g) La représentation graphique nous permet de voir que l’angle entre 
—— — 


ER. = =? ZX 
YY et Y,Y, est le même que celui entre YY et YY. L’angle est 
He (et le le cosinus maximum) quand «a = B ou pour tout a tel 


que AY, = saRe 
=> 
Du fait de l’orthogonalité entre X1 et X2, Y,Y, est toujours coli- 
— 


néaire à ŸŸ, seul le signe change en fonction de l'orientation des 
vecteurs (même sens ou sens opposé). 
3. Comme p(X;; Xx) = 1 alors R(X;;(1,X;)) = 1 et donc puisque la 
constante fait partie du modèle R(X;; X{,,) = 1. L'hypothèse H1 n’est 
donc pas vérifiée. 
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Exercice 8.3 (Géométrie des estimateurs) 
1-4. Les quatre premières réponses sont évidentes, les coordonnées de Ÿ valent 
1.5,0.5 et 0. Ici p vaut 2 et B; est un cercle de centre © de rayon 1, alors 
que B2 est un losange. 


5. Intuitivement, l’image d’un cercle par une application linéaire est une 
ellipse et l’image d’un losange est un parallélogramme. 


6. Le dessin suivant représente les ensembles C1 et C2 et Ÿ grâce aux ordres 
GNU-R suivants : 


X <- matrix(c(1,0,0,1/sqrt(3),2/sqrt(3),0),3,2) 
sss <- 1 
iter <- 1 
coord <- matrix(0,500,2) 
for (tt in seq(-pi,pi,length=500)) { 
coordliter,] <- (X/4*/4as.matrix(sqrt(sss) 
*c(cos(tt) ,sin(tt))))[1:2,] 
iter <- iter+i 
} 
iter <- 1 
coord2 <- matrix(0,500,2) 
for (tt in seq(-1,1,1ength=250)) { 
coord2[iter,] <- (X4*/as.matrix(c(tt,1-abs(tt))))[1:2,] 
coord2[iter+250,] <- (X4*/as.matrix(c(tt, 
abs(tt)-1)))[1:2,] 
iter <- iter+i 
} 
plot(coord,type="1",xlab="",ylab="") 
lines (coord2) 


R 


75 


Fig. 8.3. Représentation de C1, C2 et Ÿ. 


7. Par définition, X Briage est l’élément de C: le plus proche de Ÿ. De même, 


X ass est l’élément de C2 le plus proche de Ÿ. Cela donne graphique- 
ment 


Corrections des exercices 


269 


8. 


10. 


Fig. 8.4. Représentation de X Bridge et X Basso: 


L'ensemble C1, composé de vecteurs de la forme u = X1a1+X2a2 avec la 
norme du vecteur @ valant 1, peut être vu comme l’ensemble des compo- 
santes dans lequel on va choisir la composante PLS. La première compo- 
sante PLS est le vecteur de Ci dont le produit scalaire avec Y (et donc Ÿ) 
est le plus grand. Graphiquement, c’est le vecteur de C; dont l’extrémité 
sur l’ellipse est le pied de la tangente à l’ellipse perpendiculaire à OŸ. La 
prévision de Ÿ par la régression PLS est la projection de Y et donc de Ÿ 
sur la composante PLS. 


La calcul donne simplement 


Tr (ar . | 


Les valeurs propres sont 2 et 2/3. Le premier axe principal correspond au 
vecteur propre associé à la valeur 2. Pour trouver la première composante 
principale, il faut pré-multiplier ce vecteur par X. Cela donne le vecteur 
de coordonnées (1,1,0)’. Les commandes GNU-R sont 


X <- matrix(c(1,0,0,1/sqrt(3),2/sqrt(3),0),3,2) 
svd <- eigen(t(X)#*/X) 
X/*x/svd$vect!,1] 


La prévision de Y par la régression PCR est la projection de Y (et donc 
de Ÿ) sur la composante PCR. Dans cet exemple, la projection de Ÿ sur 
la composante PCR est un point de l’ellipse, mais cela est uniquement 
dû aux données de cet exercice. Le graphique suivant représente les 4 
projections : 
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f T 
—0.5 0.0 0.5 1.0 1.5 


Fig. 8.5. Représentation des différentes projections. 


Exercice 8.4 (Nombre effectif de paramètres de la régression ridge) 
1. Rappelons que pour une valeur « donnée, le vecteur de coefficients de la 
régression ridge s'écrit 
Bridge (#) = (X'X + KI) !X'Y. 
et donc l’ajustement par la régression ridge est 
Pridge(k) = X(X'X + KI) 1X'Y = H*(K)Y 
2. Soit U; le vecteur propre de À associé à la valeur propre d?. Nous avons 
donc par définition que 
AU; + AU; ŒU; + AU; = (d + AU; 
(A+AL)Ui = (di + AU, 
c'est-à-dire que U; est aussi vecteur propre de À + AZ, associé à la valeur 
propre À + d?. 


Il 


3. Nous savons que X = QDP' avec Q et P matrices orthogonales et D = 
diag(d1,...,d,). Puisque Q est orthogonale, nous avons, par définition, 
Q'Q = T. Nous avons donc que X’/X = (QDP') QDP' = PDQ'QDP' = 
PD?P'. Puisque P est orthogonale P'P = I, et P-! = P. 

tr(X(X'X +AL) IX") = tr((X'X + XL) IX'X) 

tr((PD?P' + APP) \PD°P!) 

tr((P(D + A,)P1) PD?P'). 


Il 


Nous avons donc 

XXL) X) = (PI UD+M,) PTTPD?P') 
tr((P')-1(D + X,) 7! D?P!) 
tr((D + M,)7!D?). 
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Selon la définition de H*(K), nous savons que sa trace vaut donc 
tr((D + Kk1,) 1 D?). 


Comme D et I, sont des matrices diagonales, leur somme et produit 
sont simplement leur somme et produit terme à terme des éléments de la 
diagonale, et donc cette trace (somme des éléments de la diagonale) vaut 


P 


E 
Dr 


i=1 


Exercice 8.5 (EQM de la régression ridge) 
1. Les démonstrations figurent en p. 200 : 


B(Briage) ni —K(X'X + KI) 18, 
Vibhag) = 0 (XX +kI) LX'X(X'X + ki) | 
EQM(Briage) = (X'X +1) 1 [k288" + o?(X'X)] (XX + KI) 71. 


2. Puisque X’X = P diag(À;)P’, nous avons 
(X'X +kl) =  Pdiag(x;)P'+kPP'= Pdiag(À; + K)P". 
En se rappelant que P-! = P', son inverse vaut 
(X'X +1)! = Pdiag(1/(\; +#))P'. 


Nous avons donc 


EQM(Briage) = Pdiag( [k286' + o?(X'X)] P diag( = - 


à T î 


)P 
K 


) [k*(P'BB'P) + o° 1, ] PT CEE 


= Pdi 
iag( ee 


À + K 


Nous en déduisons que sa trace vaut 


tr {EQM (Base) } =tr {aios(——) [k(P'BB P) + o?1,] 


PP} | 


| 1 
diag( NRE 


et, comme P’P = I,, nous avons alors 
à , 1 
tr {EQM (Base) } = tr { [k?(P'BG'P) + Et Pa diner) | 
Le i° élément de la diagonale de la matrice P'B'P vaut [P'8[?. Celui de 
[k2(P'BB'P) + o°?1I,] vaut K?[P'6B]? + 0? et celui de 


2 / 72 2 : 1 
[k(P'BB'P) + o°1,] dag(Tr) 


272 Régression - Théorie et applications 


vaut donc 

KÉ[P'BÉ + oŸ/(xi + x)? 
On en déduit le résultat annoncé car la trace est la somme des éléments 
diagonaux d’une matrice. 


3. L’estimateur des MC est non biaisé et son EQM vaut sa variance : 
EQM(uc) = o°(X'X) ! 
Nous avons alors 
EQM(Ëmc) = o(X'X+KI) !(X! ie 
= o(X'X+KI) 1 (X! 2 X)71+KkI(X'X)" 1) 
= o(X'X+KkI) (I+k(X'X) XX +kD(X'X +k1)7! 
= o(X'X+KkI) (XX +2kl+k (XX) D (XX +1)! 


4. Le calcul de À — EQM(friage) — EQM(Éuc) est immédiat en utilisant 
l'expression précédente de EQM(Éuc) et celle rappelée en question 1. 

5. En utilisant le théorème proposé avec À = (X’/X+K1) let B = (o?(21,+ 
k?(X'X)-1) — «6B/) nous obtenons le résultat demandé. Cette condition 
dépend de B qui est inconnu, mais aussi de X, c’est-à-dire des mesures 
obtenues. 

6. Intéressons-nous à la matrice y’. Cette matrice est symétrique donc dia- 
gonalisable, de valeurs propres positives ou nulles. La somme de ses va- 
leurs propres est égale à la trace de cette matrice 


tr) = 6) = 


Montrons que cette matrice n’a qu’une seule valeur propre non nulle y’. 
Pour cela, considérons le vecteur 7 € IR? et montrons qu’il est vecteur 
propre de y! associé à la valeur propre 7/7 : 


Or = 7) = (r)7. 


Nous avons donc un vecteur propre de 77" qui est y associé à la valeur 
propre y’7. De plus, nous savons que la somme des valeurs propres posi- 
tives ou nulles de 77 vaut 7/7. Nous en déduisons que les p — 1 valeurs 
propres restantes sont toutes nulles. 

Nous pouvons donc dire que la matrice 77” se décompose comme 


7Y = UDUr, 


où U est la matrice orthogonale des vecteurs propres normés à l’unité de 
77 et D = diag(y/7,0,...,0). Nous avons donc 


1,—-7yY = UU'-UDU"=U(diag(1 — y7,1,...,1)U”. 


Les valeurs propres de I, —yy" sont donc 1—77,1,...,1, qui sont toutes 
positives ou nulles dès que +/+ < 1. 
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7. Une condition pour que a?(21, — k3') soit semi-définie positive est que 
(KBB") < a? (cf. question précédente) et donc (a?(21, + K?(X/X)71) — 
«KBB}) est alors la somme de 2 matrices semi-définies positives donc semi- 
définie positive. Cela implique qu’il s’agit d’une condition suffisante pour 
que À soit semi-définie positive. 

8. Nous venons de montrer 2 conditions, l’une nécessaire et suffisante, l’autre 

suffisante, afin que À soit semi-définie positive. Cette assertion signifie 
que, quelle que soit la combinaison linéaire du vecteur de paramètre (par 
exemple une coordonnée), l’estimateur ridge est meilleur que celui des 
MC au sens de l’'EQM. Cela signifie aussi que, si une de ces conditions 
est vérifiée, globalement au sens de la trace de l’'EQM, l’estimateur ridge 
est meilleur que celui des MC. 
Au niveau des conditions, cela permet de trouver la valeur optimale de 
Kk. Malheureusement chacune des 2 conditions dépend de la valeur B in- 
connue et donc n’est pas réellement utilisable en pratique. La condition 
suffisante procure une amélioration, dans le sens où elle ne dépend pas de 
X donc de l’expérience. Le prix à payer est bien sûr qu'il s’agit seulement 
d’une condition suffisante et donc plus restrictive. 


Exercice 8.6 (Shrinkage) 
1. Soit le modèle de régression 


Y = XB+E. 
En le pré-multipliant par P, nous avons 
Z=PY = PXB+PE= DQB+n=D7y+n. 


Puisque € + W(0, a21,) et P fixé, nous avons que 7 = PE suit une loi nor- 
male de moyenne E(n) = PE(E) = 0 et de variance V(n) = P V(£)P' = 
o2PP' = o?1,. 

Par définition, Z vaut PY et nous savons que Y + W(XB,a?1,), donc 
Z = N(PXB,0?PP'), c'est-à-dire Z + N(DQB,0?1I,) ou encore Z + 
N(D7,0?1,). En utilisant la valeur de D nous avons 


A 
Dy = ( si 
Donc Zi: v N(AY, o°?1,). 


2. Soit un estimateur de B linéaire en Y : — AY. Soit l’estimateur de 
7 = QB linéaire en Y : 4 = QAY. Pour calculer leur matrice de lEQM, 
nous devons calculer leur biais et leur variance. Le biais de B est 


B(ÿ) = E(ô)-8=E(AY) - 5 = AE(Y)-8= AXB- 6. 
Le biais de 4 s'écrit 


B(4) = E(f) -7=E(Qf) - + = QE(B) - > = QAXB — +. 
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Comme y = QB et Q'Q = I, nous avons 
B(ÿ) = QAXQ'y-7. 
La variance de ê s'écrit 
V(8) = V(AY)=AV(Y)4A'= 0?A4, 
et celle de 4 est 
V() = V(QB) = QV(À)Q' = aQA4Q'. 


Nous en déduisons que les matrices des EQM sont respectivement 


EQM(#) = (AXB-—B)(AXB — B) +o° A4’, 
EQM(S) = (QAXQ'7-Y)(QAXQ'7 — 7) +0°QA4'Q, 
et enfin les traces de ces matrices s’écrivent 
tr(EQM()) (AXB — BY(AXB — B) + o?tr(AA'), 
tr(EQM(i)) = (QAXQ'y- 7) (QAXQ "y — +) + 0° tr(AA’). 


Rappelons que + = Q8 et que Q'Q = I, nous avons donc 


tr(EQM(ÿ)) = Y(QAXQ'-—1,) (QAXQ' — I,)7 + 0° tr(A4) 
=  B'(QAX — QY'(QAX — Q)B + 0° tr(AA") 
— B'(AX —-1,)Q' Q(AX — I,)B + o?tr(A4') 
B'(AX — 1,)(AX — 1,)8 + 0? tr(AA') = tr(EQM(É)). 
En conclusion, que l’on s'intéresse à un estimateur linéaire de 8 ou à un 
estimateur linéaire de 7, dès que l’on passe de l’un à l’autre en multipliant 


par Q ou Q”, matrice orthogonale, la trace de l'EQM est identique, c’est- 
à-dire que les performances globales des 2 estimateurs sont identiques. 


3. Nous avons le modèle de régression suivant : 
Zip = AY+Mip 
et donc, par définition de l’estimateur des MC, nous avons 
mc = (AA) AZ 
Comme À est une matrice diagonale, nous avons 
mc = A A'Zip = AZ. 


Cet estimateur est d'expression très simple et il est toujours défini de 
manière unique, ce qui n’est pas forcément le cas de Bar 

Comme Zi © N(A7,0°1,) nous avons que ŸMC — AZ suit une 
loi normale d'espérance E(A 171.) = A E(Z:) = 7 et de variance 
V(imc) = a?A7?. Puisque 4mc est un estimateur des MC, il est sans 
biais, ce qui est habituel. 
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. L'EQM de mc, estimateur sans biais, est simplement sa variance. Pour 
la i° coordonnée de mc, l'EQM est égal à l’élément 4, de la matrice de 
variance V(fuc), c’est-à-dire o?/6?. La trace de l'EQM est alors simple- 
ment la somme, sur toutes les coordonnées à, de cet EQM obtenu. 

. Par définition 4(c) = diag(c;)Z1:, et nous savons que Z1:, + N(AY, 0?1,). 
Nous obtenons que #(c) suit une loi normale d'espérance E(diag(c;)Z1:) = 
diag(c;)A7 et de variance 


V((c)) = diag(cs) V(Zip) diag(e) = 0° diag(c?). 


La loi de f(c) étant une loi normale de matrice de variance diagonale, 
nous en déduisons que les coordonnées de 4(c) sont indépendantes entre 
elles. 


. Calculons l’'EQM de la 1° coordonnée de #(c) 
EQM(ÿ(c)) = E(ÿ(chi - 7) = E(ÿ(c)}) + E(x) - 2E( (in). 
Comme 7; et que E(4(c)?) = V(4(c)?) + {E(4(c)?)}?, nous avons 


EQM(i(c):) = oi + (cibiv)? +47 — 2m E($(chi) 
= 02€ + (ciô;y;) + 7 — 20° cd; = a? + y (C6; — 1)°. 


. De manière évidente si +? diminue, alors l'EQM de 4(c); diminue aussi. 


Calculons la valeur de l'EQM quand 7? = F ns Nous avons, grâce 


à la question précédente, 


20° (1/6;) + c 


L ; Le 2,2, ff. 

EQM((c)i) œ G (cdi 1} 6? (1/6;) — C; 
=. JPG 0 ol +dic 
= dc pe (1 — ciô;) Te 
=; ve Lea Ci0)(1 + dci) 
To à 52 i0i iCi 

2 
= dc + SU — 62c?) 
= as pas . 
"502 0 
= EQM(iuc), 


d’où la conclusion demandée. 
. Par définition de 4(c), nous avons 

: ÿ 
diag(c;)Zi:p = disg(z )Z1r 
(A'A + KL) A Zip, 


Il 


(0) 
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puisque À est diagonale. De plus nous avons D — (CS): ce qui entraîne 


que D'D = A'A et D'Z = A'Z:,. Nous obtenons donc 


Â(c) = (D'D+Kxl,) D'Z. 
Rappelons que D = PXQ' avec P et Q matrices orthogonales, nous avons 
alors 
4(c) = (QX'P'PXQ'+kl,) !D'Z = (QX'XQ! +KQQ') !D'Z 


( 
= (QX'X +#KB)Q) "D'Z = (Q) "(XX +)" (Q) "D'Z 
Q(X'X + k1,)  Q'D'Z. 


Comme Z = PY et D = PXQ', nous avons 


A(c) = QX'X +1) Q'QX'P'PY = Q(X'X +Kkl,) !XY. 


Enfin, nous savons que Q — B, nous en déduisons que Ÿ = Q'B et donc 


que dans le cas particulier où c; = = nous obtenons 


Ë = Q$(o=(X'X+KLz) !XY, 


c’est-à-dire l’estimateur de la régression ridge. 


Exercice 8.7 (Généralisation de la régression ridge) 
Soit la fonction objectif à minimiser 


P 


L(8) = |Y-X8P-Y 7;(6). 


j=1 
Dérivons cette fonction par rapport à 8; et nous obtenons 


oc 
06; 


Cette équation se récrit comme 


= 2{[X(Y — XB)]|; —2r;6;. 


o£ 
05 


À l’optimum cette dérivée est nulle et nous avons 


— 2X'(Y - XB)-2A6. 


2X'(Y — XÜra = 2AfrG, 
c’est-à-dire 


Bre = (X'X+A) IX'Y. 
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Comme le nombre effectif de paramètres est égal à la trace de la matrice H 
permettant d'obtenir Ÿ à partir de ŸY, nous avons 


Ÿre = XBre = X(X'X +A) IX!Y = HY 
Donc le nombre effectif de paramètres est ici 
tr(H) = tr(X(X'X + A) 1%"). 


Exercice 8.8 (Centrage, centrage-réduction et coefficient constant) 
1. Comme la dernière colonne de X, notée X, vaut 1, sa moyenne empirique 
vaut 1 et la variable centrée issue de X, est donc X, — 1 x 1, = 0». 


2. Nous avons le modèle sur variable centrée 


Y  — XBE 


En identifiant cela donne 


b; 


Il 


B;, Vje{1,...,p—1}, 


p—1 
Bp Pis X;b. (8.1) 
j=1 
Si l’on utilise des variables centrées dans le modèle de régression, on 
ne met pas de colonne 1 (pas de coefficient constant - intercept). Les 
coefficients du modèle sur les variables originales sont égaux à ceux sur 
les variables centrées et le coefficient constant est donné par la formule 


(8.1). 
3. Maintenant les variables explicatives sont centrées et réduites : 
Ÿ — XG +E 
p—1 
; (5 = X;ln) à 
Y—-YI, = 
> A 
j=1 d 
pl ê pl 2 
ÿ A+ Dee ln +e 
j=1 3 j=1 ie 
En identifiant cela donne 
dre 
B; = 1, Vje{1,...,p—1}, 
OX; 
pl â; 
B = Ÿl, Dr 
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Nous obtenons ici que les coefficients du modèle sur les variables originales 
sont égaux à ceux sur les variables centrées-réduites divisés par l’écart- 
type empirique des variables explicatives. Plus la variable explicative X; 
est dispersée, plus son coefficient B; sera réduit par rapport à B;. Le 
coefficient constant est donné par la formule ci-dessus. 


4. La variable à expliquer Ÿ est elle aussi centrée-réduite : 


Ÿ — oi 
Y-ŸY1, (X; — Xjln) = 
HE Do B; + Ë 
j=1 # 
pl 3 p—1 à 
Y = 6) Xx;+(P-67 D X,E)1, +ôve 
j=1 ‘3 j=1 j 


En identifiant cela donne 


Bj T er Elbarnpel 
p—1l ô 
_ ÿ 5 ÿ. li 
Op = Yln—éy > X 6x." 
j=1 7 
E£ — OyË. 


L’écart-type empirique de Y entre en jeu et nous constatons que les ré- 
sidus du modèle « centré-réduit » sont égaux à ceux initiaux divisés par 
l’écart-type empirique de Y. 


Exercice 8.9 (IC pour la régression ridge) 

1. Nous savons que 3 + N(B,ao?(X'X)"!). 

2. La définition de l’estimateur ridge est Üiage(#) = (X/X + À)! X'Y. 

3. Grâce à H3 nous savons que Y = N(XB, Re Le vecteur Ce est une 
fonction fixée de Y, il suit donc une loi normale d'espérance et de variance 
à déterminer. L’espérance vaut 

E(briage) = E((X'X +84) IX/Y)=(X/X +8) X'E(Y) 
= (XX +R) IX'XB, 
et la variance 
V(Briage) = V((X'X +R) LX'Y) = (X/X +R) IX V(Y)X(X'X +R) 1 
=g'(X'X +R) IX 'X(X'X +R)" 


4. Rappelons que la projection orthogonale de Y sur S(X), notée Ÿ ou 
encore PxŸ est unique. Par définition, nous avons PxY L (Y — Ÿ). 


Corrections des exercices 
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Par construction Vaiage = X Briage appartient à S(X). Selon l’énoncé 
Yriage Æ PxY donc (Y — Y) est différent de Y — Ya et ils ne sont 
pas colinéaires. En conclusion, Ÿ n’est pas orthogonal à (Y — Yiage). 


. Il faut pouvoir démontrer l'indépendance de Giage et Des Pour le théo- 
rème 3.1, on montre l'indépendance entre ô et 6 en considérant les 2 vec- 
teurs Ü et ê = (Y —Ÿ). Comme nous pouvons écrire 5 = (XX) !X/PxY, 
B est donc une fonction fixe (dépendante uniquement des X) de PxY. 
De plus, ê = Px1Y est orthogonal à Px;Y. Ces 2 vecteurs suivent des lois 
normales et sont donc indépendants. Il en résulte que B et Y — Ÿ sont 
indépendants et de même pour re et 6. 
Ici, Griage est une fonction de Y — Pique Le vecteur Briage = (X'X + 
RI,) IX'Y = (X/X+R1,) !X'PxY est une fonction fixe (Æ est considéré 
comme fixé) de PxY. Par contre, PxY n’est pas orthogonal à (Y — ŸYiiage), 
comme nous l’avons montré, nous ne pouvons donc montrer l’indépen- 
dance de friage €t Oridge- 
Une autre idée serait d'utiliser 6 mais en général si l’on utilise la régression 
ridge c’est que l’on se doute que Ÿ n’est pas un bon estimateur de XB et 
donc a priori & qui est une fonction de Y — Ÿ risque de ne pas être un bon 
estimateur de ©. L’estimateur 6 peut même être nul, ce qui pratiquement 
peut arriver quand p > n. 
. L'idée repose sur le bootstrap. 
Nécessite : & fixé, a fixé, B choisi. 
Objet : IC, au niveau a, coordonnée par coordonnée de 8. 

Estimer Briage(À) : 

En déduire ériage = Y — X Bridge: 

Pour k = 1 à B faire : 

tirer avec remise n résidus estimés parmi les n coordonnées de éridge ; 


_ D AC 
notons ces résidus (réunis dans 1 vecteur) ue : 


construire 1 échantillon Y (*) — X Briage(R) + : 
k) 


PA —Rk; 


estimer le vecteur de paramètre BE (A) = (X'X +R I,) Lx YU): 


Fin pour. 

Pour j = 1 à p faire : 
calculer les quantiles empiriques de niveau a/2 et 1 — a/2 pour la 
coordonnée j, sur tous les vecteurs tn) : 

Fin pour. 


. L’algorithme est presque le même. Cependant comme # n’est pas fixé, 


pour estimer Griage(À) il faut déterminer À par une méthode choisie. En- 
(&) 


suite, à chaque estimation de Bédge(Æ()), il est nécessaire au préalable de 


déterminer #(%) par la même méthode que celle utilisée pour déterminer 


K. 
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Exercice 8.10 (théorème 8.2) 
Elle s’effectue par récurrence. Nous allons ajouter à cette propriété un résultat 
intermédiaire qui constituera la première partie de la propriété : 


j-1 
XD = x [IC = y COCO 0B 01 


i=1 


La seconde partie sera bien sûr de vérifier que ©) s'écrit bien sous la forme 
annoncée. 

La propriété pour j = 1 : la première partie n’a pas de sens et, concernant &), 
par construction X = X() et donc &U) = w0), 

La propriété pour j = 2 est-elle vraie ? 

Nous savons que par définition X(®) = P,,,:X( et X4) 2 X donc 


Pa XO = X 2 PoX = X 10 (00)-10)" x 


X(1= w0 (4040) x), 


x) 


Il 


Il 


car 40) = Xw0), Ceci démontre la première partie de la propriété. 

Ensuite, puisque #2) = X@)w®) = Xw0), en remplaçant X®) par X(I — 
w@)(#0"#0)-14(D"X) nous avons démontré la propriété pour le rang j = 2. 
Supposons la propriété vraie au rang (j— 1). Nous avons par définition : X Ü) = 
Pa niXGT) donc X@) = XG-D 2 p,;_,,X0Ü-1), Or par construction les 
{#9}; sont toutes orthogonales donc P,6-5 XÜ- = P,5-15 X. Nous avons, 
grâce à la propriété vraie pour le rang (j — 1), que 


XG) 2 XG-D 2 460 (40-06-0460 x 


= XU-D 2 xG-Da-0 (0-0 40-D)-16-D'x 


j—2 
= X ][G- 00 (040) HO XNA — w6 D (0-06) )-146-0)" x) 
i=1 


démontrant la première partie de la proposition. Ensuite, puisque 40) = XGwû) = 
X&), en remplaçant XO) par X [22 (1 — w() (4040 )-140"X), nous avons 
démontré la propriété pour le rang j. 


Annexe B 


Rappels 


B.1 Rappels d’algèbre 


Nous ne considérons ici que des matrices réelles. Nous notons À une matrice et 
A’ sa transposée. 


Quelques définitions 


Une matrice À est inversible s’il existe une matrice B telle que AB = BA = I. 
On note B = A7, 
La matrice carrée À est dite symétrique si À’ = À, 
singulière si det(A) = 0, 
inversible si det(A) £ 0, 
idempotente si AA = À, 
orthogonale si A'A = AA' = I, 
définie positive si x'Ax > 0 pour tout x £ O, 
semi-définie positive si x! Ax > 0 pour tout x # 0. 


Le polynôme caractéristique est det(A — A7). Les valeurs propres sont les so- 
lutions de det(A — XI) = 0. Un vecteur propre associé à la valeur propre À est 
une solution non nulle de Ax = Àx. 


Quelques propriétés 

Les matrices n x p 

e(A+B) = 4'+B'et (AB) = B'À'; 

e Le rang d’une matrice 4,4, est la plus petite des dimensions des 2 sous- 


espaces engendrés par les lignes et par les colonnes de À; 
e 0 <rang(A) < min(n,p); 
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rang(AA') = rang(A’A) = rang(A) ; 
Pour p < n, si À est de rang p, alors A’A est inversible. 


. ee ee eo 
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D 
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D 
ge 
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Les matrices carrées n x n 


Soit À et B des matrices carrées de taille n x n de terme courant a;; pour 4 et 
j variant de 1 à n : 


etr(A) = >}; ax; 

etr(A+B)=tr(A) +tr(B),tr(AB) = tr(BA) et tr(aA) = atr(A); 

e trAA’) = tr(4 4) = D D, a: 

e det(AB) = det(A) det(B); 

e Si det(A) Z 0, la matrice est inversible, d’inverse notée A7, avec AA = 
ATA=I,(A 1) = (4), (AB) ! = B-1A-T et det(A!) = 1/det(A); 

e La trace et le déterminant ne dépendent pas des bases choisies. 


Les matrices symétriques 


Soit À une matrice carrée symétrique de taille n x n : 


e les valeurs propres de À sont réelles ; 

e les vecteurs propres de À associés à des valeurs propres différentes sont or- 
thogonaux ; 

e si une valeur propre À est de multiplicité k, il existe k vecteurs propres or- 
thogonaux qui lui sont associés ; 

e la concaténation de l’ensemble des vecteurs propres orthonormés forme une 
matrice orthogonale P. Comme P' = P-!, la diagonalistation de À s’écrit sim- 
plement P'AP = diag(A,--: , An): 

etr(A) = >, À; et det(A) = [[_, À;; 

e rang(A) — nombre de valeurs propres non nulles; 

e les valeurs propres de A? sont les carrés des valeurs propres de À et ces 2 
matrices ont les mêmes vecteurs propres; 

e les valeurs propres de A7! (si cette matrice existe) sont les inverses des valeurs 
propres de À et ces 2 matrices ont les mêmes vecteurs propres. 


Les matrices semi-définies positives 


Soit À une matrice carrée de taille n x n : 


e la matrice À est semi-définie positive (SDP) si et seulement si Vx € R”, 
z'Ax > 0; 
e la matrice À est définie positive (DP) si et seulement si Vx € R”, x Ax > 0; 
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e les valeurs propres d’une matrice SDP sont toutes positives ou nulles (et ré- 
ciproquement) ; 

e si À est SDP et inversible, À est forcément définie positive ; 

e toute matrice À de la forme À = B'B est SDP. En effet, Vr € R”, x Ax — 
x'B'Bx=(Ba) Br =|Bxl? > 0: 

e toute matrice de projecteur orthogonal est SDP. En effet, les valeurs propres 
sont d’un projecteur valent 0 ou 1: 

e si B est SDP, alors A'BA est SDP : 

esi Aest DP, B SDP alors A7! — (A+ B) ! est SDP. 


Propriétés sur les inverses 
e Soit M une matrice symétrique inversible de taille p X p et u et v deux 
vecteurs de taille p. Nous supposerons que w/Mlv Z —1, alors nous avons 


l'inverse suivante : 


1 : M=tuv M! 


e Soit M une matrice inversible telle que 


“-(F#) 


avec T' inversible, alors Q = W — VT-IU est inversible et l'inverse de M est 


(B.2) 


ire PPT UQ VE | AE UuQ 
ES RE | OT : 


Propriétés sur les projections 
Généralités 


Une matrice carrée idempotente et symétrique est une matrice de projection 
orthogonale sur un sous-espace de R”, noté M : 

e Pm est un projecteur orthogonal, si le produit scalaire (Puy, y — Puy) = 0 
pour tout y de R? ; 

e les valeurs propres d’une matrice idempotente ne peuvent être égales qu’à 0 
ou 1; 

e le rang d’une matrice idempotente est égal à sa trace; 

e tr(Pu) est égal à la dimension de M; 

e la matrice 1 — Py est la matrice de projection orthogonale sur M1+. 
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M+ 


M 


Fig. B.1. Représentation graphique d’un projecteur orthogonal sur M. 


Exemple de Px 


Soit X —=[X:,-.:,X,] la matrice (n,p), de rang p, des p variables explicatives 
du modèle linéaire. Soit le sous-espace vectoriel S(X) engendré par ces p vec- 
teurs linéairement indépendants et P la matrice de projection orthogonale sur 
SX). Le vecteur y — Py doit être orthogonal à tout vecteur de S(X) or tous 
les vecteurs de S(X) sont de la forme Xu; en particulier il existe un vecteur b 
tel que Py = Xb. 

Il faut donc que (Xu,y — Py) = 0 pour tout vecteur u. En développant, nous 
obtenons X/y = X/Py = X'Xb. X’X est inversible done b = (X’/X) !X’y et 
donc P = X(X'X) !X7. 


Trace et éléments courants 


Soit Px de terme courant h;; la matrice de la projection orthogonale sur l’es- 
pace engendré par les colonnes de X, nous avons alors : 


1. tr(Px) = Shi = p; 

2. tr(Px) = tr(PxPx) c'est-à-dire 7,37, hf; = p; 
3. 0 <h;; < 1 pour tout i; 

4. —0.5 < h;; < 0.5 pour tout j différent de i; 

5. si hx = 1, alors h;; — 0 pour tout j différent de i; 
6. si h5 — 0, alors h;; — 0 pour tout j différent de 1. 


La trace d’un projecteur vaut la dimension de l’espace sur lequel s'effectue la 
projection, donc tr(Px) = p. Le second point découle de la propriété P? = P. 
Les matrices Px et PxPx sont égales, nous savons que (Px});; vaut (PxPx à. 
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Cela s'écrit 


häi(l—hÿ) = N hr. 


La dernière quantité de droite de l'égalité est positive et donc le troisième point 
est démontré. En nous servant de cette écriture, les deux derniers points sont 
aussi démontrés. 

Nous pouvons écrire 


hu(l— hi) = h+ NT h. 
k=1,k#i,j 


La quantité de gauche est maximum lorsque h;; = 0.5 et vaut alors 0.25. Le 
quatrième point est démontré. 


Dérivation matricielle 


Soit f une fonction réelle différentiable de R? dans R. Le gradient de f est par 
définition 


. = OT of | 
V(F) = grad(f) = E #] 
et le hessien de f est la matrice carrée de dimension p x p, souvent notée V?f 
A = pf 
ou H(f), de terme général H(f);; = TR 
Si f(u) = a'u où a est un vecteur de taille p, alors V(f) = a’ et H(f) = 0. 
Si f(u) = uw’ Au, alors V(f) = (A+ A'ju et H(f) = A + A’. 


B.2 Rappels de probabilités 


B.2.1 Généralités 


Y vecteur aléatoire de R” est par définition un vecteur de R” dont les compo- 
santes y1,--: ,Yn Sont des variables aléatoires réelles. 

L’espérance du vecteur aléatoire Y, E(Y) = (E(yi),--- ,E(y.)) est un vecteur 
de R7. 

La matrice de variance-covariance de Ÿ à pour terme général Cov(yi, y;). 
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E[(Y-E(Y))(Y -E(Y))] 
E(YY”) -E(Y)(E(Y))’, 
c’est une matrice de taille n x n. 


Considérons une matrice fixée (déterministe) À de taille n x n et b un vecteur 
fixé de R?. Soit Y un vecteur aléatoire de R”, nous avons les égalités suivantes : 


E(AY +b) = AE(Y)+b 
V(AY +b) = V(AY)= AV(Y)A. 


Si Y est un vecteur aléatoire de R” de matrice de variance-covariance Yy, alors 
pour la norme euclidienne 


E(IY -E(Y)|?) = t(2v). 
Nous avons les égalités utiles suivantes : 


tr(E(YY’)) = E(tr(YY')) = E(tr(Y'Y)) = tr(2y) + E(Y)E(Y). 


B.2.2 Vecteurs aléatoires gaussiens 


Un vecteur aléatoire Ÿ est dit gaussien si toute combinaison linéaire de ses 
composantes est une v.a. gaussienne. Ce vecteur admet alors une espérance y 
et une matrice de variance-covariance y. On dit que Y + N{u, y). 

Un vecteur gaussien Y de IR” d’espérance y et de une matrice de variance- 
covariance y inversible admet pour densité la fonction 


1 1 
— 2 exp TD l{y—u)l, où y—(y1,...,Yn). 
Ne) AD) FSU -u)YET (y u)] y = (ÿ1,...,Yn) 
Les composantes d’un vecteur gaussien Ÿ = (y1,:-: ,y,) sont indépendantes 


si et seulement si % est diagonale. 


Soit Y = Nu, Ey), alors (Y — u)'E 1(Y — y) = x? 


“a 
Théorème B.1 (Cochran) 

Soit Y = N{u,o?1), M un sous-espace de R" de dimension p et Puy la matrice 
de projection orthogonale de R" sur M. Nous avons les propriétés suivantes : 


(i) PuY e N (Pub, 0° Pu) ; 
(ii) les vecteurs Puy et y — Puy sont indépendants ; 


(iii) [PuY — Puul?/o? + x. 
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B.3 Tables des lois usuelles 


B.3.1 Loi normale X = W(0,1) 


—4 —2 0 u 2 4 


Valeurs de Pr(X < u) en fonction de u. 


u 0 0.01 | 0.02 | 0.03 | 0.04 | 0.05 | 0.06 | 0.07 | 0.08 | 0.09 
0.0 | .5000 | .5040 | .5080 | .5120 | .5160 |.5199 | .5239 |.5279 |.5319 | .5359 
0.11.5398 |.5438 |.5478 |.5517 |.5557 | .5596 | .5636 | .5675 |.5714|.5753 
0.21.5793|.5832 | .5871 | .5910 | .5948 | .5987 | .6026 | .6064 | .6103 | .6141 
0.31.6179|.6217 | .6255 | .6293 | .6331 | .6368 | .6406 | .6443 | .6480 | .6517 
0.4).6554 | .6591 | .6628 | .6664 | .6700 | .6736 | .6772 | .6808 | .6844 | .6879 
0.5|.6915 | .6950 | .6985 | .7019 | .7054|.7088 | .7123 |.7157 |.7190 |.7224 
0.61.7257|.7291 |.7324 |.7357 | .7389 | .7422 | .7454|.7486 | .7517 |.7549 
0.71.7580|.7611|.7642 |.7673|.7704 .7734|.7764 | .7794 | .7823 | .7852 
0.8 |.7881 | .7910 |.7939 | .7967 | .7995 | .8023 | .8051 | .8078 | .8106 | .8133 
0.91.8159 | .8186 | .8212 | .8238 | .8264 | .8289 | .8315 | .8340 | .8365 | .8389 
1.0|.8413 | .8438 | .8461 | .8485 | .8508 | .8531 | .8554|.8577 | .8599 | .8621 
1.1|.8643 | .8665 | .8686 | .8708 | .8729 | .8749 | .8770 | .8790 | .8810 | .8830 
1.2|.8849 | .8869 | .8888 | .8907 | .8925 | .8944 | .8962 | .8980 | .8997 | .9015 
1.3 |.9032 | .9049 | .9066 | .9082 | .9099 | .9115 | .9131 | .9147 | .9162 | .9177 
1.41.9192 | .9207 | .9222 | .9236 | .9251 | .9265 | .9279 | .9292 | .9306 | .9319 
1.5|.9332 | .9345 | .9357 | .9370 | .9382 | .9394 | .9406 | .9418 | .9429 | .9441 
1.6 |.9452 | .9463 | .9474 | .9484 | .9495 | .9505 | .9515 | .9525 | .9535 | .9545 
1.71.9554 | .9564 | .9573 | .9582 | .9591 | .9599 | .9608 | .9616 | .9625 | .9633 
1.8 |.9641 | .9649 | .9656 | .9664 | .9671 | .9678 | .9686 | .9693 | .9699 | .9706 
1.91.9713 | .9719 | .9726 | .9732 | .9738 | .9744 | .9750 | .9756 | .9761 |.9767 
2.01.9772|.9778 |.9783 | .9788 | .9793 | .9798 | .9803 | .9808 | .9812 | .9817 
2.1 | .9821 | .9826 | .9830 | .9834 | .9838 | .9842 | .9846 | .9850 |.9854 | .9857 
2.2 | .9861 | .9864 | .9868 | .9871 | .9875 | .9878 | .9881 | .9884 | .9887 | .9890 
2.3 | .9893 | .9896 | .9898 | .9901 | .9904 | .9906 | .9909 | .9911 | .9913 | .9916 
2.4 ).9918 | .9920 | .9922 | .9925 | .9927 | .9929 | .9931 | .9932 | .9934 | .9936 
2.5 | .9938 | .9940 | .9941 | .9943 | .9945 | .9946 | .9948 | .9949 | .9951 | .9952 
2.6 | .9953 | .9955 | .9956 | .9957 | .9959 | .9960 | .9961 | .9962 | .9963 | .9964 
2.7 | .9965 | .9966 | .9967 | .9968 | .9969 | .9970 | .9971 | .9972 | .9973 | .9974 
2.8 | .9974 | .9975 | .9976 | .9977 | .9977 | .9978 | .9979 | .9979 | .9980 | .9981 
2.9 | .9981 | .9982 | .9982 | .9983 | .9984 | .9984 | .9985 | .9985 | .9986 | .9986 
3.0 |.9987 | .9987 | .9987 | .9988 | .9988 | .9989 | .9989 | .9989 | .9990 | .9990 
3.1 | .9990 | .9991 | .9991 | .9991 | .9992 | .9992 | .9992 | .9992 | .9993 | .9993 
3.2 | .9993 | .9993 | .9994 | .9994 | .9994 | .9994 | .9994 | .9995 | .9995 | .9995 
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B.3.2 Loi de Student X = 7, 


4 


2 
Table des fractiles t,(p) pour une loi de T p=Pr{X <t,(p)} 


0 


2 


4 


:; PU 0.5 | 0.6 | 0.7 | 0.8 | 0.9 | 0.95 | 0.975 | 0.99 | 0.995 | 0.999 | 0.9995 
1 |0.000,0.325 0.727 1.37613.078 |6.314112.706 |31.821 |63.656 |318.289 [636.578 
2 10.000 0.289 |0.617 | 1.061 | 1.886 | 2.920 | 4.303 | 6.965 | 9.925 | 22.328 | 31.600 
3 |0.00010.27710.584|0.978 | 1.638 | 2.353 | 3.182 | 4.541 | 5.841 | 10.214 | 12.924 
4 )0.00010.27110.569 0.941|1.533|2.132| 2.776 | 3.747 | 4.604 | 7.173 | 8.610 
5 |0.00010.26710.559 10.920|1.476 2.015 | 2.571 | 3.365 | 4.032 | 5.894 | 6.869 
6 |0.000/0.265 | 0.553 | 0.906 | 1.440 | 1.943 | 2.447 | 3.143 | 3.707 | 5.208 | 5.959 
7 10.000|0.263 10.549 0.896 |1.415|1.895 | 2.365 | 2.998 | 3.499 | 4.785 | 5.408 
8 |0.000,0.262 0.546 | 0.889 | 1.397 | 1.860 | 2.306 | 2.896 | 3.355 | 4.501 | 5.041 
9 10.000 ,0.261 0.543 |0.883 | 1.383 | 1.833 | 2.262 | 2.821 | 3.250 | 4.297 | 4.781 
10 |0.000,0.26010.54210.879|1.372|1.812| 2.228 | 2.764 | 3.169 | 4.144 | 4.587 
11 [0.000 0.260 0.540 10.876 |1.363 | 1.796 | 2.201 | 2.718 | 3.106 | 4.025 | 4.437 
12 |0.00010.25910.539 10.873 |1.356 1.782 | 2.179 | 2.681 | 3.055 | 3.930 | 4.318 
13 |0.000,0.25910.538 10.870 |1.350|1.771 | 2.160 | 2.650 | 3.012 | 3.852 | 4.221 
14 10.000 0.258 0.537 0.868 | 1.345 |1.761 | 2.145 | 2.624 | 2.977 | 3.787 | 4.140 
15 |0.00010.258 10.536 | 0.866 | 1.341 11.753 | 2.131 | 2.602 | 2.947 | 3.733 | 4.073 
16 |0.00010.25810.535 [0.865 |1.337|1.746 | 2.120 | 2.583 | 2.921 | 3.686 | 4.015 
17 10.000 0.25710.53410.863 | 1.333 | 1.740 | 2.110 | 2.567 | 2.898 | 3.646 | 3.965 
18 |0.00010.257|0.534/0.862]1.330|1.734| 2.101 | 2.552 | 2.878 | 3.610 | 3.922 
19 |0.0000.25710.533|0.861|1.328|1.729| 2.093 | 2.539 | 2.861 | 3.579 | 3.883 
20 |0.00010.257|0.533 | 0.860 | 1.325 | 1.725 | 2.086 | 2.528 | 2.845 | 3.552 | 3.850 
21 |0.000,0.257|0.532|0.859|1.323 |1.721 | 2.080 | 2.518 | 2.831 | 3.527 | 3.819 
22 |0.00010.256|0.532|0.858 | 1.321 1.717) 2.074 | 2.508 | 2.819 | 3.505 | 3.792 
23 |0.00010.256|0.532|0.858 1.319 11.714! 2.069 | 2.500 | 2.807 | 3.485 | 3.768 
24 |0.000|0.256|0.531 |0.857|1.318|1.711 | 2.064 | 2.492 | 2.797 | 3.467 | 3.745 
25 |0.000|0.256 | 0.531 0.856 |1.316 | 1.708 | 2.060 | 2.485 | 2.787 | 3.450 | 3.725 
26 |0.000 0.256 10.531 0.856 |1.315 |1.706 | 2.056 | 2.479 | 2.779 | 3.435 | 3.707 
27 |0.000 0.256 0.531 0.855 |1.314\1.703 | 2.052 | 2.473 | 2.771 | 3.421 | 3.689 
28 |0.000 0.256 0.530 0.855 |1.313|1.701| 2.048 | 2.467 | 2.763 | 3.408 | 3.674 
29 |0.000 0.256 0.530 0.854 1.311 |1.699| 2.045 | 2.462 | 2.756 | 3.396 | 3.660 
30 |0.000 10.256 0.530 0.854]1.310 11.697 | 2.042 | 2.457 | 2.750 | 3.385 | 3.646 
40 [0.000 0.255 | 0.529 | 0.851 | 1.303 |1.684| 2.021 | 2.423 | 2.704 | 3.307 | 3.551 
60 |0.000 0.254 10.527 |0.848 | 1.296 1.671 | 2.000 | 2.390 | 2.660 | 3.232 | 3.460 
80 |0.000|0.254|0.526 | 0.846 | 1.292 |1.664| 1.990 | 2.374 | 2.639 | 3.195 | 3.416 
100 |0.000 0.254] 0.526 | 0.845 | 1.290 | 1.660 | 1.984 | 2.364 | 2.626 | 3.174 | 3.390 
200 |0.0000.25410.525 10.843 1.286 1.653 | 1.972 | 2.345 | 2.601 | 3.131 | 3.340 
oo |0.000 0.253 |0.52410.842 1.282 1.645 | 1.960 | 2.326 | 2.576 | 3.090 | 3.290 
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B.3.3 Loi du Khi-deux à v ddl X = y? 


Table des fractiles c,(p) pour 


une loi du x? :p=Pr{X < 


c(p)} 
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0.000 
0.002 
0.024 
0.091 
0.210 
0.381 
0.599 
0.857 
1.152 
1.479 
1.834 
2.214 
2.617 
3.041 
3.483 
3.942 
4.416 
4.905 
5.407 
5.921 
6.447 
6.983 
7.529 
8.085 
8.649 
9.222 
9.803 
10.391 
10.986 
11.588 
17.917 
24.674 
31.738 
39.036 
46.520 
54.156 
61.918 


0.000 
0.010 
0.072 
0.207 
0.412 
0.676 
0.989 
1.344 
1.735 
2.156 
2.603 
3.074 
3.565 
4.075 
4.601 
5.142 
5.697 
6.265 
6.844 
7.434 
8.034 
8.643 
9.260 
9.886 
10.520 
11.160 
11.808 
12.461 
13.121 
13.787 
20.707 
27.991 
35.534 
43.275 
51.172 
59.196 
67.328 


0.000 
0.020 
0.115 
0.297 
0.554 
0.872 
1.239 
1.647 
2.088 
2.558 
3.053 
3.571 
4.107 
4.660 
5.229 
5.812 
6.408 
7.015 
7.633 
8.260 
8.897 
9.542 
10.196 
10.856 
11.524 
12.198 
12.878 
13.565 
14.256 
14.953 
22.164 
29.707 
37.485 
45.442 
53.540 
61.754 
70.065 


0.001 
0.051 
0.216 
0.484 
0.831 
1.237 
1.690 
2.180 
2.700 
3.247 
3.816 
4.404 
5.009 
5.629 
6.262 
6.908 
7.564 
8.231 
8.907 
9.591 
10.283 
10.982 
11.689 
12.401 
13.120 
13.844 
14.573 
15.308 
16.047 
16.791 
24.433 
32.357 
40.482 
48.758 
57.153 
65.647 
74.222 


0.004 
0.103 
0.352 
0.711 
1.145 
1.635 
2.167 
2.733 
3.325 
3.940 
4.575 
5.226 
5.892 
6.571 
7.261 
7.962 
8.672 
9.390 
10.117 
10.851 
11.591 
12.338 
13.091 
13.848 
14.611 
15.379 
16.151 
16.928 
17.708 
18.493 
26.509 
34.764 
43.188 
51.739 
60.391 
69.126 
77.929 


0.016 
0.211 
0.584 
1.064 
1.610 
2.204 
2.833 
3.490 
4.168 
4.865 
5.578 
6.304 
7.041 
7.790 
8.547 
9.312 
10.085 
10.865 
11.651 
12.443 
13.240 
14.041 
14.848 
15.659 
16.473 
17.292 
18.114 
18.939 
19.768 
20.599 
29.051 
37.689 
46.459 
55.329 
64.278 
73.291 
82.358 


2.706 
4.605 
6.251 
7.779 
9.236 
10.645 
12.017 
13.362 
14.684 
15.987 
17.275 
18.549 
19.812 
21.064 
22.307 
23.542 
24.769 
25.989 
27.204 
28.412 
29.615 
30.813 
32.007 
33.196 
34.382 
35.563 
36.741 
37.916 
39.087 
40.256 
51.805 
63.167 
74.397 
85.527 
96.578 
107.56 
118.498 


3.841 
5.991 
7.815 
9.488 
11.070 
12.592 
14.067 
15.507 
16.919 
18.307 
19.675 
21.026 
22.362 
23.685 
24.996 
26.296 
27.587 
28.869 
30.144 
31.410 
32.671 
33.924 
35.172 
36.415 
37.652 
38.885 
40.113 
41.337 
42.557 
43.773 
55.758 
67.505 
79.082 
90.531 
101.88 
113.14 
124.342 


5.024 
7.378 
9.348 
11.143 
12.832 
14.449 
16.013 
17.535 
19.023 
20.483 
21.920 
23.337 
24.736 
26.119 
27.488 
28.845 
30.191 
31.526 
32.852 
34.170 
35.479 
36.781 
38.076 
39.364 
40.646 
41.923 
43.195 
44.461 
45.722 
46.979 
59.342 
71.420 
83.298 
95.023 
106.63 
118.14 
129.561 


6.635 
9.210 
11.345 
13.277 
15.086 
16.812 
18.475 
20.090 
21.666 
23.209 
24.725 
26.217 
27.688 
29.141 
30.578 
32.000 
33.409 
34.805 
36.191 
37.566 
38.932 
40.289 
41.638 
42.980 
44.314 
45.642 
46.963 
48.278 
49.588 
50.892 
63.691 
76.154 
88.379 
100.42 
112.33 
124.12 
135.807 


7.879 
10.597 
12.838 
14.860 
16.750 
18.548 
20.278 
21.955 
23.589 
25.188 
26.757 
28.300 
29.819 
31.319 
32.801 
34.267 
35.718 
37.156 
38.582 
39.997 
41.401 
42.796 
44.181 
45.558 
46.928 
48.290 
49.645 
50.994 
52.335 
53.672 
66.766 
79.490 
91.952 
104.21 
116.32 
128.30 
140.169 


10.827 
13.815 
16.266 
18.466 
20.515 
22.457 
24.321 
26.124 
27.877 
29.588 
31.264 
32.909 
34.527 
36.124 
37.698 
39.252 
40.791 
42.312 
43.819 
45.314 
46.796 
48.268 
49.728 
51.179 
52.619 
54.051 
55.475 
56.892 
58.301 
59.702 
73.403 
86.660 
99.608 
112.32 
124.84 
137.21 
149.449 
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B.3.4 Loi de Fisher à v,1 ddl X + F,,,,) 


Table des fractiles f(,,,,,)) pour une loi F(,, ,,,) : 0.95 = Pr {X < Fasa)(p)} 
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Index 


Aberrant, 84 
Affine, 8 
AIC, 162 
Aitken, voir Estimateur 
Ajustement, 94 
Ajustement individuel, 84 
Aléatoire 
bruit, 9, 34 
estimateur, 11 
Alternée, voir Choix de variables pas 
à pas 
Analyse de la covariance, 105 
Analyse de la variance 
à 1 facteur, 116 
à 2 facteurs, 127 
tableau, 121, 135 
ANOVA, voir Analyse de la variance 
Apprentissage-validation, 153 
Autocorrélation des résidus 
choix des résidus, 82 
Régression avec, 188 
régression avec, 187 
vérification graphique, 86 
vérification par test, 86 
Autorégressif 
d'ordre 1, AR(1), 187 
simultané SAR, 188 


Backward, voir Choix de variables 
descendant 

Biais 
équilibre biais-variance, 144-148 
d’un estimateur, 12 
de sélection, 150 
estimateur des MC, 12, 41 
estimateur du MV, 32, 54 


estimateur ridge, 200 
BIC, 162 
Biscuits 
introduction, 205 
lasso, 211 
PCR, 221 
PLS, 230 
ridge, 206 
Bootstrap, 71 
Bruit 
définition, voir Aléatoire, bruit 
estimation, voir Résidus, défi- 
nition et/ou choix 


Centrage-réduction 
coefficients, 277 
définition, 202 
utilité, 202 

Centre de gravité du nuage, 11 

Choix de composantes 
PLS, 226 
principales, 218 

Choix de variables 
AIC, 162 
algorithmes, 165 
apprentissage-validation, 153 
ascendant (forward), 166 
BIC, 162 
C, de Mallows, 159 
descendant (backward), 167 
exhaustif, 165 
généralités, 155 
pas à pas (stepwise), 167 
R?, 156 
R? ajusté, 158 
test, 155 
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validation croisée, 154 
vraisemblance, 162 
Classe de fonctions, 7, 34 
Classe de fonctions linéaires, 9 
Coût, voir Fonction de coût 
Codage, 104 
Coefficient de détermination, voir R? 
Coefficient de détermination ajusté, 
voir R? ajusté 
Colinéarité des variables explicatives, 
197 
Composantes 
PLS, 224 
principales, 214 
Confiance 
ellipse, voir ellipse de confiance 
hyperbole, 20, 21, 24 


intervalle, voir Intervalle de confiance 


intervalle par bootstrap, voir In- 
tervalle de confiance 
région, voir Région de confiance 
Contraintes 
identifiantes, 118, 120, 130 
norme, 172 
norme /!, 209 
norme !?, 199 
norme minimum, 140 
sur les coordonnées, 52 
Contrastes, 139 
Convergence, 76 
en loi, 78 
estimateur, 77 
Cook, 91 
Covariance des erreurs 
exemples, 187, 188 
généralités, 186 
vérification graphique, 86 
C, de Mallows, 159 
Critères d’information 
équivalences, 163 
AIC, 162 
BIC, 162 
généraux, 163 


Décentrée (loi), 63, 75 


Décomposition en valeurs singulières, 
234 
Dépendantes (variables), voir Variables 
explicatives 
Degré de liberté, 45, 62 
DFFITS, 94 
Distance 
de Cook, 91, 92 
Welsh-Kuh, 93 
DModX, 229 


Ecart-type, voir Variance résiduelle 
Echantillon 
apprentissage, 153 
observations, 9, 11 
validation, 153 
Echelle de mesure, 202 
Ellipse de confiance, 20, 26, 57 
GNU-R, 58 
Emboîtés (modèles), 61, 155, 163 
EQM 
définition, 148 
estimateur à rétrécissement, 235 
estimateur MC, 171 
estimateur ridge, 201, 234 
modèle de régression, 149-151, 
159 
EQMP, 151 
Equations normales, 10 
Erreur 
définition, voir Aléatoire, bruit 
estimation, voir Résidus, défi- 
nition et/ou choix 
Erreur de prévision, 15, 44, 153 
Erreur quadratique moyenne, voir 
EQM 
Erreur quadratique moyenne de pré- 
vision, 151 
Espace 
des observations, 15 
des résidus, 39, 42 
des solutions, 38 
des variables, 16, 38 
Estimable, voir Unicité 
Estimateur 


Index 
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à noyau, 193 
b, voir Estimateur des MC 
d’Aiïtken, 184 
de James-Stein, 171, 199 
de variance minimale, 12, 13, 
42 
des moindres carrés, voir Esti- 
mateur des MC 
des moindres carrés contraints, 
76 
du max. de vrais., voir Estima- 
teur, MV 
MC, 38, 119 
loi, 54-55 
variance, 13, 43 
MCG, 184 
MV, 31, 53 
polynômes locaux, 195 
sans biais, 12, 14, 43 
gè 
loi, 54-55 
Eucalyptus 
ANCOVA, 103, 105, 114 
introduction, 3 
régression multiple, 48 
régression simple, 26 
tests, 66 
Exogènes (variables), voir Variables 
explicatives 


Fenêtre, 193 
Fictives, voir Variables fictives 
Fonction de coût, 3, 5, 6, 34 
absolu, 6 
quadratique, 6 
Fonction de perte, 3, 5 
Fonction fixe d’une variable 
cas général, 37 
exemple de l’eucalyptus, 48 
Forward, voir Choix de variables as- 
cendant 


Géométrie 
espace des variables, 38 
modèle de régression, 35 


modèle de régression avec in- 
teraction, 36 
modèle de régression avec in- 
teraction et carré, 37 
régression, 38 
régression ridge, 199 
Gauss-Markov, 13, 42, 181 
GCV, voir Validation croisée géné- 
ralisée 


Hétéroscédasticité 
définition, 179 
détection, 85 

Homoscédasticité, 12, 41, 85, 179 

Hypothèses 
gaussiennes, 18, 53 
Hi 

définition, 11, 35 
non vérifiée, 197-231 
vérification, 197 
Ho 
définition, 12, 41 
non vérifiée, 179-191 
vérification, 85-89 
H3 
définition, 18, 53 
non vérifiée, 71-74 
vérification, 85-89 


maximum de vraisemblance (MV), 


18, 53 
moindres carrés (MC), 53 


Identifiabilité, 118 


contraintes, voir Contraintes iden- 


tifiantes 
introduction, 118 
Individus, 15 
aberrants, 84 
influents, 7, 84 
nombre, 35, 76, 153-155, 197 
Inertie, 227 


Influent, 84 

Interaction 
ANCOVA, 105 
ANOVA, 127 
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généralités, 35-37 

variable qualitative et constante, 
107 

variable quantitative et quali- 
tative, 107 

variables qualitatives, 129 

Intervalle de confiance, 57 

B, 19, 56 

bootstrap, 73, 238 

comparaison, 73 

droite de régression, 20 


GNU-R, 25, 58 

prévision, 20, 59 

o?, 19, 56 
Inverse 


estimateur des MC, 38 
généralisé de Moore-Penrose, 140 
problème d’, 118, 197 


James-Stein, voir Estimateur 


Lasso, 209-213 

Levier, 90 

Linéaire, voir Classe de fonctions li- 
néaires 

Lisseur, 86 


MAE, 204, 219, 228 
Matrice 
de projection, 39, 89 
du plan d’expérience, 35 
Maximum de vraisemblance (MV), 
voir Estimateur, MV 
Modèle de régression 
emboîtés, voir Emboîtés 
linéaire multiple, 34 
linéaire simple, 9 
sur variables centrées-réduites, 
202, 210, 217, 223 
Moindres carrés 
généralisés, 180 
ordinaires (MC), voir Estima- 
teur des MC 
pondérés, 180 


Moore-Penrose, voir Inverse géné- 
ralisé 

MSEP, 153, 208, 212, 221, 231 
MV, voir Estimateur du MV 


Nombre effectif de paramètres, voir 
Paramètres, nombre effec- 
tif 
Non linéaire 
fonction fixe, 37, 48 
modèle, 192 
recherche de fonction fixe, 97, 
100 
Normales, voir Equations normales 
Normalité 
asymptotique, 78 
Noyau 
application linéaire 
définition, 118 
théorème du rang, 140 
unicité MC, 118, 140 
estimateur, 193 


Observations, voir Individus 
Orthogonales 
variables explicatives, 41, 170 
Ozone 
ANCOVA, 109 
ANOVA 
1 facteur, 122 
2 facteurs, 127, 136 
bootstrap, 72 
choix de variables, 168 
introduction, 1 
régression locale, 191 
régression multiple, 46 
régression simple, 21 
tests, 65 
validation du modèle, 97 


Pénalisation, 162 
Paramètres, 9 
IC, voir Intervalle de confiance 
nombre, 9, 34 
nombre effectif 
lasso, 211 
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ridge, 203 
PCR, 213-223 
Plan d'expérience 
équilibré, 128, 130 
complet, 128 
incomplet, 128 
matrice du plan, 35 
PLS 
PLS1, 223-231 
PLS2, 226 
Poids, voir Régression pondérée 
Point levier, 90 
Polynômes 
locaux, voir Estimateur 
régression, voir Régression po- 
Iynômiale 
Population, 84, 90, 106, 229 
Prévision 
erreur, 15, 44, voir EQMP 
intervalle, 20, 59 
ponctuelle, 14, 44, 59 
variance de l'erreur, 15 
PRESS, 204, 207, 219, 227, 228 
Profil, 132 
Projection, 16 
Projection orthogonale, 39, 62 


Q-Q plot, 85, 98 
Qualité 
ajustement 
graphique, 23, 28, 47, 49 
individuel, 84 
numérique, 3, 5, 16, 47, 144, 
158 
par variable, 94 
PLS, 228, 230 
estimateur, 17, voir aussi EQM 
modèle, 204, 219, 228 
prévision, 24, 29, 144, 153-155 


R?, 16, 17, 45, 156 
R? ajusté, 45, 158 
R2, voir R? ajusté 
Région de confiance, 19, 56, 58 


multivariée (ellipsoïde), 19 
univariée (intervalle), 19 
Régression 
simple, 9 
lasso, 209-213 
locale, 191-194 
modèle, 9 
multiple, 34 
PLS, 223-231 
polynômiale, 36 
pondérée, 182 
ridge, 172, 198-205 
sur composantes principales, 213-— 
223 
Résidus, 181 
choix, 83 
définition, 14, 42 
normalisés, 43, 82 
partiels, 96 
partiels augmentés, 96 
représentations graphiques, 84- 
89, 96-97 
exemples, 97-101 
standardisés, 82 
standardisés par validation croi- 
sée (VC), 82 
studentisés, 43, voir Résidus stan- 
dardiés par VC 
théoriques, 82 
Rétrécissement (shrinkage) 
estimateur, 235 
James Stein, 171 
ridge, 199, 208, 222, 231 
Ridge, 198-205 
Ridge regression, voir Régression ridge 


Robuste, 7, 89, 91-94 


Sélection de modèles, voir Choix de 
variables 
SAR, voir Autorégressif simultané 
Shrinkage, voir Rétrécissement 
Somme des carrés 
expliquée, 17, 44 
résiduelle, 17, 43, 44, 251 
totale, 17, 44 
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Somme des valeurs absolues résiduelles, 
voir Fonction de coût ab- 
solu ou MAE 
Statistique 
exhaustive, 252 

Strate, 127 

Student 
équivalence avec test F', 64, 71 
test nullité G;, 64 


Tableau d'analyse de la variance, 121, 
135 
Test, 60, 108, 120 
entre modèles emboîtés, 61, 63, 
155, 163 
F = T?, 64, 71 
Fisher global, 64 
hypothèse linéaire, 63 
hypothèse linéaire quelconque, 
74 
rapport de vraisemblance, 71 
robustesse, 122 
Théorème du rang, 140 
Transformation d’une variable, voir 
Fonction fixe d’une variable 


Unicité 
B, 118, 124 
contraste, 141 


Valeurs 
ajustées, 11 
définition, 39 
EQM, voir EQM 
variabilité, 20, 42, 59, 68, 144, 
148 


prévues 
définition, 11, 44 
EQMP, voir EQMP 
variabilité, 20, 44, 68, 144 
Validation croisée, 154 
généralisée, 205 
Variables 
à expliquer, 1 
aléatoires, 9, 34 
choix de, voir Choix de variables 
explicatives, 1, 9, 34 
fictives (dummy), 104 
nombre de, 35, 145, 197 
Variables dépendantes, voir Variables 
explicatives 
Variables exogènes, voir Variables 
explicatives 
Variance 
analyse, voir Analyse de la va- 
._ riance 
B, 13, 43 
décomposition, 127 
inter, 127 
intra, 127 
résiduelle 
définition, 13 
estimateur, 43 
estimation, 14, 82, 93 
IC, 56, 59 
Vraisemblance 
estimateur, 18 
hypothèses, 18 
pénalisation, 162 


Welsh-Kuh, 94 


Notations 


B Vecteur de R? de coordonnées (H1,...,/,), page 34 
By Estimateur de 6 dans le modèle linéaire privé de l’observation 4, page 83 
6 Vecteur B privé de sa j° coordonnée, page 95 


Cov(X,Y) Covariance entre X et Y, ie. E {(X — E(X))(Y — E(Y))'}, page 12 
Cn-p(1 — «) Fractile de niveau (1 — &) d’une loi de x? à (n — p) ddl, page 19 
ddl Degré de liberté, page 19 
E(X) Espérance de X, page 12 


Fpn-p Loi de Fisher à p ddl au numérateur et (n — p) degrés de liberté au 
dénominateur, page 19 


f(pn-p)( — à) Fractile de niveau (1 — «&) d’une loi de Fisher à (p,n — p) ddl, 
page 19 


Ho E(e;) = 0 pouri=1,...,n et Cov(e;,c;) = 6;;0?, page 41 
Th où 7 Matrice identité d’ordre n ou d’ordre dicté par le contexte, page 41 
ii.d. Indépendants et identiquement distribués, page 53 


S(X) Image de X (matrice n X p) sous-espace de R”? engendré par les p 
colonnes de X : S(X)={2Ee R":2a € R?,2 = Xa}, page 38 


NW(0,a?) Loi normale d’espérance nulle et de variance a?, page 18 
Px Matrice de projection orthogonale sur S(X), page 39 
Pr(Y < y) Probabilité que Ÿ soit inférieur ou égal à y, page 177 
R? Coefficient de détermination, page 17 

SCE Somme des carrés expliquée par le modèle, page 17 

SCR Somme des carrés résiduelle, page 17 

SCT Somme des carrés totale, page 17 


Gti) Estimateur de © dans le modèle linéaire privé de l’observation +, page 82 
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Tn-p Loi de Student à (n — p) degrés de liberté, page 19 

tn-p(1 — a/2) Fractile de niveau (1 — &/2) d’une loi 7,-_,, page 19 

VC Validation croisée, page 82 

X X =(X1|X2|...|X,) matrice du plan d'expérience, page 35 

x! i° ligne de X, page 35 

lé Cardinal de £ un sous-ensemble d’indice de {1,2,...,p}, page 145 
X; j° colonne de X, page 35 


À Matrice X privée de sa j° colonne, page 95 

di Ajustement de l'individu À, page 14 

ÿ Prévision de l'individu ?, page 14 

ge Prévision de l'individu x* dans le modèle ayant £ variables explicatives, 
page 152 

Y? Prévision des n* individus de la matrice X* dans le modèle à £ variables, 
page 152 


ÿ(xe)  Ajustement de l’individu à dans le modèle ayant £ variables explicatives, 
page 149 


Y(Xe) Ajustement des n individus de la matrice X dans le modèle à £ variables, 
page 150 
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